作者|娜皮
编辑|星奈
媒体|AI大模型工场
近几年,AI的演进节奏明显加快。2023年,ChatGPT引爆大模型热潮;2024年,行业焦点转向AI Agent与具身智能的落地可能;发展至2025年,“用AI 驱动新质生产力”成为高频共识。
而2026年,一个过去更多停留在学术论文里的概念,开始被频繁提及,那就是世界模型。近日,国内AI公司在这方面取得的进展,让业界第一次清晰地感受到,世界模型,可能真的要走出实验室了。
在一个高度规模化的技术体系中,真正决定行业走向的,往往不是单点能力的跃迁,而是某种关键能力是否能从“少数人掌握”,变成“多数人可用”的工具。
历史表明,从操作系统到云计算,开放与可及性始终是引爆生态创新的火种,如今世界模型,正在经历这样的时刻。
01
世界模型,加速“上桌”
1月29日凌晨,蚂蚁集团旗下的具身智能公司灵波科技,继连续发布空间感知与VLA基座模型后,正式开源发布世界模型LingBot-World,完整放出模型权重与推理代码; 到30日凌晨,大洋彼岸的科技巨头Google宣布,向18岁以上的美国AI Ultra订阅用户开放Project Genie / Genie 3 体验入口。
两件事情先后发生,不少海内外研究者认为,这是来自同一时代节点的双向确认,象征着世界模型的开源开放窗口被打开,世界模型正在加速走出论文与演示阶段,进入一个可触达、可使用的窗口期。
事实上,世界模型的概念并非新概念。它的目标,是让AI学会理解和模拟环境动态,预测自身行动可能带来的结果,这一直是具身智能、自动驾驶乃至通用人工智能领域最受关注的研究方向之一。
但问题在于,过去几年,这项技术长期受制于多重现实瓶颈,迟迟未能“上桌”,成为开发者触手可及的工具。
一方面,高质量的具身交互数据极度稀缺。真实世界的数据采集成本高、风险大、难以规模化,模型往往只能在有限、抽象的环境中学习;另一方面,在算法与算力层面,世界模型长期被困在一个现实悖论中——画面越真实,生成越慢;时间越长,越容易失控,难以兼顾连续性与交互性。
此外,即便在技术层面有所突破,工程化依然是难以绕开的门槛。许多世界模型停留在“看起来很酷”的Demo阶段,延迟高、生成慢,无法支持实时交互,更谈不上进入生产级链路。更重要的是,世界模型长期掌握在少数科技巨头手中,闭源、不可复现,开发者只能围观,却难以参与真正的工程试错。
也正是在这样的背景下,蚂蚁灵波选择了一种更系统性的组合拳来“破局”。
从1月27日到30日,蚂蚁灵波连续开源了四款具身智能相关模型。这并不是零散的技术展示,而是围绕“感知—决策—环境—行动”这一完整闭环,逐步拼出的一套完整的支持系统。
在这套体系中,LingBot-Depth解决的是“看清世界”的问题,尤其针对透明、反光等长期困扰机器人行业的感知难题;LingBot-VLA则承担着“大脑”的角色,让机器人能够在不同平台、不同任务之间实现泛化操作;LingBot-World提供的是一个高保真、可交互的模拟环境,用于低成本、安全地训练AI;而LingBot-VA,则首次把感知、决策和环境整合进同一个自回归世界模型中,让机器人能够在想象中规划、并在现实中行动。
在海外技术社区,蚂蚁灵波的开源策略受到高度认可和关注,大模型学术领域意见领袖AK也专门发文推荐了其中的视觉-语言-动作(VLA)模型。
社交平台X上也被LingBot-World刷屏,直接登顶了Feature榜单Top 1,在专业社区Reddit上,Machine Learning、Singularity、Artificial Intelligence、LocalLLaMA、StableDiffusion等多个垂直子社区均被相关讨论广泛覆盖,并一度登顶被视为未来科技风向标的Singularity子社区热门榜首(Hot Top 1)。不少海外网友自发“打call”,直呼这个来自中国的模型“太震撼”。
02
打造“数字演练场”
在讨论世界模型之前,有一个长期存在的误解需要被澄清,世界模型并不等同于更高级的视频生成模型。过去的视频模型生成场景常常缺乏底层规律,没有因果关系,物体有时也会胡乱变化。比如,很多AI视频里,画面一转换,人物就突然从背面变成了正面;把杯子放桌上,镜头切走再切回来,杯子莫名其妙换了一个位置或花样等。
而这些问题,都在世界模型中被解决了。
此前,DeepMind的Genie 3已经展示了世界模型的潜力:能根据提示实时生成可交互的动态世界。而蚂蚁灵波的LingBot-World在此基础上,将重点放在了质的提升上。其突破不止于生成,更在于模拟——随着模型扩展,研究者发现它开始涌现出对空间、时间乃至基础物理规律的隐式理解,展现出从“渲染画面”向“构建规则”跨越的迹象。
画面由 LingBot-World模型生成
这条视频便是生动的例子。普通的AI生成鸭子游水,往往只会生成个鸭子在水上做动作,水面很难有真实的波动,但LingBot-World生成的鸭子,腿部蹬水的动作、水面对扰动的响应、以及鸭子身体与水之间的相互作用都比较符合物理规律。
这显示出模型不仅记住了视觉表象,而是真正理解了流体力学等基础物理机制。
更让人惊喜的,是它的“超长续航”。目前市面上的同类模型,最多只能生成几十秒的连贯视频,比如Sora 2最长25秒,Runway Gen-3 Alpha最多40秒,而LingBot-World一次性生成了一段9分20秒的无剪辑视频。
画面由LingBot-World模型生成
视频里,用户以第一视角从破旧的古希腊神庙出发,沿着小径走到新古典主义建筑,再进入复原的古希腊建筑群,近10分钟里,画面的视觉质量、物理状态都保持稳定,没有出现物体变形、场景崩坏的情况。不少海外用户在体验LingBot-World后都对其高保真模拟与精准控制能力印象深刻。
诚然,视频也存在小瑕疵,部分细节精度、场景的泛化能力,仍然有提升空间——视频最后几分钟,模型忘了建筑之间的位置关系,原本连在一起的新古典主义建筑和古希腊建筑群,后来变得孤立。但即便如此,能在近十分钟内,画面保持了较为稳定的物理状态和视觉质量,这在目前的视频生成模型和世界模型中都比较罕见。
如今,随着LingBot-World的发布,蚂蚁灵波正从幕后走向台前。蚂蚁灵波的目标是打造一个开放、通用的智能基座,与越来越多行业和厂商共建生态。这一次,它用开源的方式,向世界抛出了自己的世界模型范式。
03
改变世界模型的产业路径
长期以来,世界模型更像是一种巨头内部的研发资产,而非行业公共能力。训练环境高度专有、成本高昂;模型能力难以复现;中小团队即便具备想法,也难以进入实质探索阶段。这种结构,限制了世界模型的应用节奏,也放慢了具身智能整体的发展速度。
蚂蚁灵波此次开源的深层意义,在于它主动选择了一条截然不同的产业路径。
与Genie 3不同,Genie 3是闭源的,因而社区无法基于它进行开发和迭代,因此如果学术团队或初创公司想用此训练一个高质量世界模型,门槛极高,而LingBot-World则将完整代码与权重直接交付开发者,目标并非展示能力,而是进入真实工程链路,全球社区都能依此打造无限可玩的下一代虚拟世界。
这一选择,在国际上引发了深刻共鸣和战略层面的解读。“这对整个行业都是变革”,德国最大的财经网站之一AdHocNews在报道中指出,“蚂蚁集团正在成为不断增长的人形机器人和物理AI市场中的核心推动者。这对于行业的意义可能是深远的:从物流和制造业到医疗保健乃至个人辅助,开发者们突然获得了以往只有大型企业才能使用的工具。特别关键的应用,如自动驾驶或外科手术,将受益于像LingBot-World这样的安全训练环境。”
德国财经网站AdHocNews 报道原文
开源,正在从根本上改变世界模型的产业逻辑。它极大地降低了创新门槛与成本,使得一间大学的实验室或一个小型创业团队,也能基于顶级模型开展前沿研究,这将极大激活长尾创新活力。更重要的是,当代码与权重公开,技术演进的动力就从单一公司的研发部门,扩展至全球开发者社区。可复现性催生信任,协作网络加速迭代,共同推动技术更快地弥合“模拟到现实的鸿沟”。
冷静的保留意见依然存在,世界模型前方依然横亘着巨大的挑战。在极端复杂场景下的长时一致性是否可靠?对柔性体、流体等复杂物理约束的模拟能否逼近真实?虚拟训练出的智能体如何更平滑地迁移到千差万别的真实硬件上?这些问题,目前还没有捷径可走。
但至少可以确定的是,世界模型的开放窗口期已经被打开,它正在从“少数人拥有的能力”,转向“更多人可使用的工具”。而在决定下一代具身智能形态的关键节点,开放,正在成为一种新的竞争力。
当世界模型真正“上桌”时,变化的不只是技术路线,还有整个产业参与者的构成方式,让中小团队低成本、高效率拥有一个SOTA级别的世界模型底座,具备了更多可能性。