图 开源直播现场
图 人形机器人世界模型概览图
来自论文《WOW: TOWARDS A WORLD-OMNISCIENT WORLD-MODEL THROUGH EMBODIED INTERACTION》
当“魔兽世界(Wow)”以奇幻大陆承载无数玩家想象时,北京人形机器人创新中心在10月16日在晚八点以直播形式,宣布开源了人形WoW(英文WORLD-OMNISCIENT WORLD-MODEL)世界模型,以140亿参数和200万条机器人互动轨迹,在AI领域构建一个更贴近现实物理规律的“真实世界模拟器”。
图 Wow驱动百斤重机器人在物理世界运动,来自直播截图
很多读者可能又是魔兽玩家又是机器人研究者,以后可能会同时研究两个Wow。
WoW世界模型让AI首次通过“亲手互动”掌握物理直觉,打破了当前视频生成模型(如Sora)“只会模仿画面、不懂因果规律”的困局。随着模型、数据与基准测试集的全面开源,AI会越来越满足物理一致性约束。
提到“Wow”,多数人会先想到魔兽世界里的魔法、副本与奇幻生物,但北京团队推出的人形WoW世界模型,却用另一种“魔法”颠覆认知——它让AI像人类一样,通过“触摸、推动、摆放”物体,理解“重力会让杯子下落”“推桌子会产生位移”这些朴素却核心的物理规律。
魔兽世界的魅力在于“构建虚拟规则”,玩家遵循游戏设定的魔法体系与战斗逻辑即可沉浸其中;而人形WoW的突破在于“还原真实物理”——它不再依赖“看一万段杯子落地的视频”来模仿画面,而是通过“机器人亲手推杯子、接物体”的互动数据,学习“动作与结果”之间的因果关系。比如,当AI需要生成“堆叠积木”的视频时,魔兽世界的逻辑可能允许“积木悬浮叠放”,但人形WoW会严格遵循“下面积木支撑上方重量”“倾斜角度过大积木会倒塌”的物理规律,生成的内容不仅视觉真实,更符合现实世界的运行逻辑。
能为所欲为的世界,看似美好,但不一会就会因为缺乏真实感而索然无味。即使游戏世界也要有规则,有真实感,才能吸引玩家。
这种“真实感”正是当前AI最稀缺的能力。此前,Sora等视频模型虽能生成超写实画面,却常出现“人踩水不沉”“物体穿透墙壁”的“物理幻觉”,根源在于它们是“被动的观察者”;而人形WoW是“主动的互动者”,它的“魔法”不是特效合成,而是对真实物理因果的深度理解——这也是它比魔兽世界更具技术突破性的核心所在。
图 世界模型发展的两种路径,根据物理规律推算和根据大模型大数据模拟,来自论文
人形WoW无疑采用了右边的路径--large model + massive data。其结果就是驱动天工机器人能在复杂地形中考虑物理约束自由运行。
图 Wow加持天工机器人户外运行,直播截图
人形WoW的核心竞争力,在于学习“200万条机器人互动轨迹”。这些数据记录着机器人与物理世界每一次“动作-反馈”的因果关联,也是AI理解物理规律的“第一手资料”。
图 WoW根据物理轨迹学习,来自论文
一条机器人互动轨迹具体是什么样子?它不是简单的“机器人移动视频”,而是包含多维度数据的结构化记录**、、,我们可以通过一个“机器人推杯子”的案例来拆解:
- 动作数据:精确记录机器人执行的操作细节——机械臂的初始位置(距离杯子左侧10cm、高度5cm)、施加的力度(3牛顿)、推动方向(水平向右)、动作持续时间(0.5秒),甚至包括机械关节的旋转角度(肘部关节转动15度);
- 环境数据:标注互动时的场景信息——杯子的物理属性(材质为陶瓷、重量200g、底部直径8cm)、桌面状态(木质表面、摩擦系数0.3、是否水平)、环境光照(亮度500lux)、是否存在其他障碍物(如杯子右侧5cm处有一本书);
- 反馈数据:记录动作引发的物理结果——杯子的位移轨迹(从初始位置向右移动12cm)、运动状态变化(从静止加速到0.2m/s,最终因摩擦力减速停止)、是否发生碰撞(推动过程中未触碰其他物体)、是否出现意外情况(如杯子轻微倾斜但未倾倒)。
图 从800万条原始数据提炼到200万条高质量数据,直播截图
这200万条轨迹覆盖了更丰富的场景:从“堆叠不同形状的积木”“抓取不同重量的物体”“推动不同材质的箱子”,到“在倾斜平面上放置物品”“应对物体碰撞后的连锁反应”。每条轨迹都像一次“物理实验记录”,将“动作”与“物理结果”强绑定——比如“用5牛顿的力推塑料杯”和“用5牛顿的力推金属杯”,反馈数据中“位移距离”的差异,会让AI逐渐理解“质量与加速度”的关系(牛顿第二定律的朴素表达)。
图 这不是真的,孤独的美食家和吴京,直播截图
上面两个场景一个是机械臂服务志村五郎,把水倒在了桌子上;一个是机械臂递给吴京一个后视镜,都是生成的,但因为符合物理规律所以真实,“生成模型是没有物理规律的,但我们有”。
相比之下,传统视频模型的训练数据(如电影、短视频)只是“结果的展示”——它能看到“杯子移动了12cm”,却看不到“是3牛顿的力推动的”,更无法关联“力度与位移”的因果。而200万条互动轨迹,正是为人形WoW搭建了“从动作到结果”的认知桥梁,让AI不是“看物理”,而是“做物理”。
AI物理认知的核心难题:物理直觉不足、随机性不稳定性突出、物理幻觉频发。
1. 物理直觉:AI的“朴素物理认知”
物理直觉是人类与生俱来的能力——婴儿看到玩具掉落,会预判它会落到地上;成年人推桌子,会知道用的力越大,桌子动得越快。这种“无需复杂计算就能预判物理结果”的能力,正是人形WoW试图让AI掌握的核心。
通过200万条互动轨迹的训练,WoW不再是“机械模仿画面”,而是能基于物理规律做预判。比如给定“在桌子边缘放一个苹果”的场景,它能预判“苹果超过边缘1/3会掉落”,而不是像传统模型那样,可能生成“苹果悬在边缘外却不掉落”的错误结果。这种预判能力,就是AI物理直觉的体现。
2. 随机性不稳定性:概率分布带来的“波动”
研究发现,WoW对物理规律的理解,本质上是“合理结果的概率分布”。比如“推杯子”时,它会根据历史数据,认为“杯子可能移动10-14cm”,而不是一个固定值——这种概率特性虽让模型更贴近现实(现实中推杯子的结果受摩擦、力度微小差异影响,本就不是完全固定),但也带来了“随机性不稳定性”。
例如,在预判“杯子落地时间”时,多次生成的结果在0.8-1.2秒之间波动,虽都在合理范围,但缺乏稳定性。这种不稳定性,是模型从“确定性认知”转向“概率性认知”过程中必然出现的现象。
3. 物理幻觉:AI的“违背物理规律”错误
物理幻觉是当前视频生成模型的通病,指生成内容违背客观物理规律。即使是WoW,初期也会出现这类问题——比如生成“杯子从桌子上掉落,却中途悬浮1秒”“两个物体碰撞后,穿透彼此继续运动”的画面。
究其根源,是模型虽学习了大量互动轨迹,但仍未完全掌握“底层物理逻辑”。比如它知道“推杯子会动”,却没完全理解“重力是持续作用的力”,因此在生成视频时,可能因对“重力作用时间”的判断失误,导致杯子悬浮。而解决物理幻觉,正是SOPHIA框架的核心任务。
4. 逆动力学:连接“想象”与“行动”的桥梁
逆动力学模型是WoW实现“从想到做”的关键。传统AI可能“想到要让杯子移动10cm”,却不知道“该用多大的力、从哪个角度推”;而逆动力学模型通过联合训练,能根据“目标结果”反推“所需动作”——比如已知“让杯子向右移动10cm”,它能计算出“需用3牛顿的力,从杯子左侧水平推动0.5秒”,并将这些参数转化为机器人的具体操作指令(如机械臂关节的转动角度、电机的输出功率)。
图 背后屏幕上展示Wow IDM过程,IDM 是 “Inverse Dynamics Model” 的缩写,即逆动力学模型
这一能力让WoW不再是“只会想象的模型”,而是能指导机器人行动的“实用工具”——它可以规划“堆叠10块积木的步骤”,再通过逆动力学模型,让机器人一步步执行,实现“想象-行动”的闭环。
为解决WoW的物理幻觉与随机性不稳定性,研究团队设计了SOPHIA框架——它像一位“懂物理的裁判”,通过视觉-语言模型的评估与引导,将AI的“涌现能力”约束在合理的物理范围内。
图 SOPHIA框架给予世界模型感知反馈,直播截图
图 闭环反馈的SOFHIA,来自论文
1、生成结果评估:首先让WoW生成一段包含物理互动的视频(如“机器人推杯子”),然后调用视觉-语言模型(如GPT-4V、Gemini Pro Vision)作为“评估者”,对视频内容进行物理规律校验。评估者会基于“人类物理常识”判断内容是否合理,比如识别“杯子是否悬浮”“物体是否穿透”“运动轨迹是否符合重力规律”,并标注出存在物理幻觉的帧(如“第15帧,杯子在无外力作用下突然改变运动方向,违背惯性定律”)。
2. 语言指令引导:针对评估出的问题,视觉-语言模型会生成“修正型语言指令”。这些指令不是复杂的代码,而是贴近人类表达的物理规则描述,比如“修正第15帧的杯子运动轨迹,使其保持匀速直线运动,直到受到桌面摩擦力减速停止”“确保所有帧中,物体下落时的速度随时间增加,符合重力加速度规律”。这种语言指令的优势在于“灵活且易懂”,能让WoW快速理解“需要修正的物理逻辑”。
3. 迭代优化生成:WoW根据修正后的语言指令,重新生成视频内容。这个过程会反复迭代——新生成的视频会再次被评估,若仍存在物理问题,评估者会进一步细化指令(如“将杯子下落的加速度调整为9.8m/s²,更贴近真实重力”),直到生成的内容完全符合物理规律。
通过SOPHIA框架,WoW的物理幻觉和随机性不稳定性也得到显著缓解。比如此前生成“积木堆叠”时,可能出现“上层积木压垮下层积木却不倒塌”的错误,经过SOPHIA优化后,模型会根据“积木承重能力”调整堆叠方式,确保“下层积木能支撑上层重量”,生成的画面既视觉流畅,又符合物理逻辑。
为了客观衡量AI的物理认知能力,北京团队还构建了WoWBench基准测试集——这是全球首个聚焦“视频物理一致性与因果推理”的基准,像一张“AI物理能力成绩单”,从多个维度评估模型的真实水平。
图 现场嘉宾畅谈WoWBench,直播截图
图 WoWBench全览,来自论文
1. WoWBench的测试维度
WoWBench包含5类核心测试任务,每类任务都对应现实中的物理场景,覆盖AI物理认知的关键能力:
- 物理因果关系:测试模型是否理解“动作与结果”的因果关联。例如给定“机器人推桌子”的视频片段,让模型预判“桌子是否会移动”“移动方向与距离”,并解释“为什么会出现这样的结果”。
- 碰撞动力学:评估模型对物体碰撞后运动状态的理解。比如测试“两个不同质量的球碰撞后,各自的反弹方向与速度”,判断模型是否掌握“动量守恒”的朴素规律。
- 物体恒存性:验证模型是否知晓“物体即使不在视野中,也依然存在”。例如视频中“杯子被书本挡住”,测试模型是否能预判“移开书本后,杯子仍在原位”,而非认为“杯子消失”。
- 稳定性判断:测试模型对物体平衡状态的认知。比如展示“不同角度倾斜的积木塔”,让模型判断“塔是否会倒塌”,以及“倒塌的时间与方式”。
- 复杂场景推理:在多物体、多动作的复杂场景中,评估模型的综合物理推理能力。例如“机器人同时推两个相邻的箱子,箱子之间会发生碰撞,进而影响各自的运动轨迹”,测试模型是否能完整预判整个过程的物理结果。
WoWBench的推出,不仅证明了WoW模型的领先性,更填补了AI领域“物理认知能力评估”的空白。此前,行业缺乏专门的基准测试集,只能通过“人工肉眼观察”判断模型是否存在物理幻觉;而WoWBench提供了标准化的测试任务与量化指标,让“AI懂不懂物理”有了可衡量的标准。
北京人形WoW世界模型的开源,是一次技术成果的共享,更是为AI领域指明了一条从“被动观察”到“主动理解”的新路径。它用140亿参数、200万条机器人互动轨迹、SOPHIA框架与WoWBench基准,构建了一套完整的“AI物理认知体系”,证明了“大规模真实世界互动”是AI获得物理直觉的基础。
回顾整个研究,其核心突破可概括为三点:
第一,数据层面,用“机器人互动轨迹”替代“视频数据”,让AI从“看物理”转向“做物理”,真正掌握“动作-结果”的因果关系;
第二,能力层面,通过SOPHIA框架解决物理幻觉与不稳定性,让AI的物理认知从“概率性波动”走向“规律性稳定”;
第三,应用层面,用逆动力学模型实现“想象-行动”闭环,让AI从“只会生成视频”转向“能指导机器人行动”,具备了实用价值。
随着模型与WoWBench的全面开源(paper,code,model,Demo都可以免费获取),更多研究团队将能基于这一基础,进一步探索AI物理直觉的边界——比如将互动数据扩展到“液体、气体等更复杂的物理场景”,或优化SOPHIA框架,让AI能理解“更精细的物理规律”(如摩擦力与温度的关系)。