从第一性原理看机器人AI:为什么它比大模型更难?
创始人
2026-06-28 21:24:04
0

机器之心编译

过去几年,机器人行业最常见的高光时刻,几乎都发生在演示视频里。

一台机械臂听懂指令,伸手拿起杯子;一个人形机器人走进厨房,把杂物收回原位;它可以叠衣服、拉抽屉、倒咖啡,甚至在陌生房间里完成一连串看似自然的动作。

这些画面很容易让人产生一种错觉:机器人已经开始像人一样理解世界了。

但如果把问题拆到最底层,答案反而朴素得多。

这篇来自 Interlatent(一家聚焦具身智能后训练与部署的早期创业公司) 的文章,试图从第一性原理出发,把现代 AI 机器人技术重新讲清楚:一个机器人到底如何理解世界,如何生成动作,又为什么会在数据、延迟和泛化上遇到如此多的困难。

文章给出的切入口非常简单:先把机器人控制问题,看成一个函数。

有一种看似简单、但相当准确的方式,可以用来描述 physical AI 到底在做什么。任何有 STEM 背景的人,应该都能直观理解。和其他所有 AI 模型一样,控制机器人的模型本质上也是一个函数。它接收观测作为输入,比如摄像头像素、关节角度、夹爪感受到的阻力等等;然后输出动作,也就是电机下一步的位置和力矩。除此之外,所有复杂的算法、训练方法和数据扩展理论,都是为了得到这个函数的一个足够好的版本,并把它写入神经网络的权重之中

机器人策略本质上是一个函数。观测从左侧不断输入,网络对其进行处理和细化,随后一组动作指令从右侧输出,对应机械臂每一个关节,也就是它的每一个自由度。这个领域中的其他一切,都是为了让这一个函数变得足够好、足够快

如果你曾经训练过一个将输入映射到输出的模型,就已经能够理解这个问题的大致形态。真正有意思的地方在于:当你把这个熟悉的问题形态,放进一个不断运动、不断响应的真实世界里,会发生什么。

文章地址:https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles

秘方,以及打破它的维度

有两个核心要素可以提升这一功能的质量:算力与数据。数据是机器人智能的原始燃料,来自真实世界的物理规律如同未经加工的矿石一样蕴藏其中。而算力则通过矩阵乘法,训练该功能去嵌入从数据中挖掘出的这些规律。

这听起来就像是普通的机器学习,而且在相当长一段时间里,你确实可以把它假想成普通机器学习。然而,机器人技术引入了传统机器学习从未需要面对的第三个轴向:推理时间。一个大语言模型可以花上3 秒钟去思考下一个 Token,而不会对任何人造成伤害,但一台正在倒咖啡的机器人绝对不行。此时咖啡杯已经在移动,动作必须在事件发生的过程中同步生成。该功能不仅需要保证正确,还必须足够快,快到当答案送达时,其「 正确性 」依然具有实际意义。当你的模型还在思考时,物理世界依然在持续运行,这导致机器人领域不得不做出一些既艰难又有趣的抉择。

将大脑一分为二

最自然的第一反应,是训练一个巨大的模型,让它直接从观测映射到动作。但在实践中,这个领域逐渐走向了一种更有意思的方案。现代机器人模型通常被分成两个部分:一个负责理解,一个负责行动。

其中的主干通常是一个大模型,典型形态是视觉语言模型(VLM)。它与 GPT-5 或 Gemini 在同时理解语言和图像时所使用的模型属于同一类。由于它已经在海量互联网图文数据上完成训练,因此某种程度上已经「知道」世界是什么样的。比如,无论颜色如何,杯子都是杯子;把东西收起来,意味着把它放回一个合理的位置。它承载着一种关于世界外观和运行方式的学习表征。这个部分更像一个缓慢、审慎的规划者,负责理解环境。

与之相连的,则是一个小得多的动作专家:一个快速模型,它唯一的任务,就是接收主干模型形成的理解,并将其在实时场景中细化为平滑的电机控制指令。NVIDIA 于 2025 年发布的人形机器人开放基础模型 GR00T N1,就明确采用了这种拆分方式。它的 System 2 VLM 负责对场景进行较慢、更审慎的推理,而独立的 System 1 模块则近乎本能地生成实际动作,两者被紧密地联合训练在一起。Physical Intelligence 的 π₀ 也采用了同样的架构:一个负责理解的 VLM,加上一个负责行动的小型动作头。这就构成了所谓的视觉语言动作模型(Vision-Language-Action model,VLA)。

视觉语言动作模型是一个由两个相互耦合部分组成的网络。大型 VLM 主干负责读取图像、语言和机器人状态,并形成对场景的理解。小型动作专家则接收这种理解,从噪声出发,在一次前向传播中将其细化为一个动作块:也就是一小段未来动作序列。

因此,我们从一个单体式的巨大函数,走向了两个模型之间的协作:一个模型负责保存对世界的图景,另一个更小的模型则负责把这幅图景转化为动作。

动作到底是怎么生成的?

接下来要问的是:这个函数究竟以什么形式输出动作?答案主要有两种,而这个领域的发展史,很大程度上就是从第一种走向第二种的过程。

第一种是离散式的:动作头一次只生成一个动作。模型先观察,输出一条单步指令,执行之后再重新观察。早期系统大多是这样工作的。它直观,也适合一些较简单的问题,但速度太慢,而且小错误会不断累积。每一个细微失误,都会把机器人推向一个比训练时见过的情况稍微陌生一点的状态;下一次预测就会更差,再下一次还会更差。最终,机器人会逐渐偏离自己的能力边界,导致任务失败。

第二种是动作分块,也就是模型一次性预测一小段未来动作序列,然后把它作为一个平滑的整体执行,之后再重新查询模型。这个想法由斯坦福 Tony Zhao 及其合作者在 2023 年提出,名为 Action Chunking with Transformers(ACT)。它的名字借用了心理学中的「chunking」概念,指的是人类会把一连串细小动作组合成一个流畅动作。ACT 带来了重要改进:它只需要大约十分钟的示教数据,就能学会一些对精度要求很高的任务,比如打开半透明调料杯,或者把电池插入卡槽,成功率达到 80%–90%。预测一个动作块,可以缩短任务的有效长度,也能缓解单步预测中反复出现的误差累积问题。

在离散模式下,机器人一次只预测一步,小错误会不断累积,最终让它逐渐偏离自己的能力边界。而在动作分块模式下,机器人会一次性确定一小段动作序列,因此能够始终紧贴预定路径。

现代机器人学的许多思路,其实都在模仿人类行为。人类不会一次只思考一个微小动作,然后再执行它。我们是在连续流动的动作中一边移动、一边思考。现代机器人追求的正是这种连续、分块的动作生成,让动作之间没有僵硬停顿,看起来更像一个活物,而不是一具被牵动的木偶。

当前生成这种平滑动作块的前沿方法叫做流匹配。这是一种通过扩散过程,将带噪声的潜变量逐步细化为连贯轨迹的技术。π₀ 和 GR00T 中的动作专家,都是从噪声出发,迭代地将其细化成一条连贯轨迹。这与现代图像生成器所使用的是同一类技术,只不过这里生成的不是像素,而是动作。

大脑应该放在哪里:边缘端还是云端?

一旦有了这个函数,就必须决定把它运行在哪里。这里会出现一个核心取舍:可用算力与延迟。

你可以把模型放在边缘端,也就是直接运行在连接机器人的计算机上。这样延迟几乎为零,当然前提是模型能够装进边缘设备。这非常适合物理世界中的实时控制,但你会受到机身可搭载硬件的限制,因此往往不得不把模型压小。

也可以把模型放在云端,把重计算任务交给强大的服务器,再通过互联网把动作指令传回机器人。这样可以运行更大的模型,但每一个动作都必须经过一次网络往返,此时延迟就会成为敌人。

这个约束到底有多紧?以 π₀.₅ 为例。在高端 GPU 上,它完成一次完整的感知与动作循环大约需要 274 毫秒,其中约 80% 的时间都花在迭代式流匹配细化上。而在一个以 3Hz 控制循环运行的小型边缘设备上,每个周期总共只有约 330 毫秒,感知和动作生成都必须在这段时间内完成,几乎没有任何余量。

这正是整个领域必须面对的核心问题:云端能给机器人更大的大脑,边缘端能给机器人更快的大脑。但你不能让「思考」与「行动」之间的间隔变得太长,否则等机器人想清楚时,真实世界早已发生了变化。

在边缘端,模型直接在设备上运行,不经过网络,但由于加速器性能较弱,所以计算耗时更长。切换到云端后,更强的 GPU 会缩短计算时间,但现在每一个动作都要经过一次网络往返。把网络往返延迟往上拖动,你就会看到总耗时超过 330 毫秒的截止线。

数据瓶颈

和许多深度学习问题一样,机器人学也受困于数据。但对机器人学来说,真正麻烦的地方尤其在于数据的多样性。

最丰富的机器人数据来自遥操作:由人类一遍又一遍地操控机器人完成某项任务。专家示教通常能够稳定地产生优秀策略,但它很难规模化。每一小时数据都意味着一小时的人类劳动成本;在某些情况下甚至需要更多,因为示教质量本身很重要。更糟的是,每一种机器人、每一种夹爪、每一个实验室,往往都会产生一套彼此不兼容的小型数据集。GR00T 团队很贴切地把这种状况称为由一个个「数据孤岛」组成的群岛,而不是一片统一、连贯、互联网规模的数据海洋。

这与 AI 其他领域的发展路径形成了对比。在其他 AI 领域,关键魔法往往是一样的:把问题转化为可以用计算规模化解决的形式。比如,语言建模之所以能够扩展,是因为文本数据极其丰富,而且可以相对通用地互换使用。机器人学没有类似的数据洪流。因此,这个领域分化出了两种策略,用来制造那些无法简单收集到的数据。

策略一:模拟世界

如果无法从真实世界中收集到足够多的数据,那就构建一个假的世界,让机器人在那里免费练习。这正是世界模型和仿真发挥作用的地方。准确地说,仿真是一个更宽泛的概念,指任何能够足够好地建模世界、以便在其中练习的系统。世界模型则是一种神经网络:给定当前状态和一个动作,它会预测世界接下来会变成什么样。它学习行动带来的后果,通常会通过图像等媒介来表达;更关键的是,它从观察中学习物理规律,而不是依赖人工编写的规则,因此能够捕捉目标环境中重要的动态特征。

2025–2026 年,这一方向的关键跃迁来自 Google DeepMind 的 Genie 3。它是一个世界模型,只需要文本提示,就能实时生成完全可交互、可导航的 3D 环境,并根据此前帧来预测每一帧。它对机器人学的意义显而易见:可以提供无限、廉价的训练场景,包括那些你绝不会想在现实中搭建的危险边缘案例。Waymo 走的正是这条路线,构建了 Waymo World Model,用来生成同步的摄像头与激光雷达驾驶场景,其中包含真实车辆几乎很少遇到的罕见情况。NVIDIA 也发现,在 GR00T 的训练中混入合成数据,相比只使用真实数据,性能提升了 40%。这个方向的愿景,是把数据问题转化为计算问题。一旦做到这一点,机器人学就能继承 AI 其他领域已经享受到的所有优势。

策略二:向日常生活中的人类学习

第二种策略更隐蔽,在我们看来也更优雅。最具规模化潜力的机器人数据收集器,其实是戴着眼镜的人,而非机器人。

Meta 的 Ego4D 等项目,以及 Project Aria 眼镜,彻底重构了这个问题。Ego4D 收集了超过 3000 小时的人类第一视角视频,记录的是人们完成日常事务的过程。佐治亚理工的一套系统 EgoMimic 对这一点概括得很准确:当你看到一个庞大的人类第一视角数据集时,你看到的本质上也可以是一个庞大的机器人数据集,只不过它是由人们在日常生活中被动生成的。

你戴上眼镜,照常生活,就已经在以人类生活本身的规模生产操作数据。那项工作中最引人注意的发现是:额外增加一小时人类手部数据,对机器人的提升效果,超过额外增加一小时机器人数据。

因此,相比需要专门投入人力的遥操作,第一视角数据收集承诺了一种更低额外成本的大规模数据路径。

训练

有了架构和数据之后,怎样才能真正造出一个有能力的机器人?答案是分阶段完成,每个阶段都有不同目标。

能力是在一个个阶段中建立起来的,每一层都建立在前一层之上。

预训练负责塑造 VLM 主干。你向它输入海量关于空间推理以及世界一般运行方式的数据,目标是让它建立起对物理世界的理解和推理能力。

中期训练负责创建动作专家。目标是得到一个在几乎任何配置下都能大致工作的「大脑」,它能够把自身理解转化为各种动作,并适配多种不同类型的机器人。这需要大量来自不同环境、不同机器人形态的数据。

后训练,也就是微调,则是把这个通用大脑调适到某个具体身体和一小组具体任务上。比如,把一个通用模型专门适配到某个双臂机器人系统上,它就能在这种具体形态下开箱即用,并取得还不错的效果。这个阶段,真实世界数据的价值会真正体现出来:遥操作数据和第一视角数据,往往最能直接转化为现实表现。

部署训练的目标,是让机器人适应某一个具体环境,直到它在那里真正安全、真正有用。这正是「能在演示里工作」和「能在你家厨房里工作」之间的差距。许多看起来很惊艳的系统,最后都会在这里悄悄失效。π₀.₅ 之所以有意思,正是因为它试图缩小这道鸿沟:它被设计用来清理训练中从未见过的家庭厨房和卧室。它经常能做到,虽然并不完美,但已经能看到一丝类似人类进入陌生房间时所展现出的应变能力。

让机器人自我教学

但这一切都有上限。一个只靠示教训练出来的机器人,最多也只能变得和示教一样好。它学会的是理想路径,却没有学会如何从自己的错误中恢复,因为它从未真正见过这些错误。这就像只看完美驾驶视频来学开车一样:一旦第一次转错弯,就会手足无措。

出路在于像人类一样学习:练习,并接受批评。这就是强化学习:让机器人尝试,对结果打分,再强化那些有效的行为。问题在于,你不可能在每一个时刻都监督机器人,也不可能为每一种可能情况都提供样例。而在真实世界中,不同于模拟器,每一次尝试都是串行的、缓慢的,还需要人类重新布置场景。因此,物理世界中的强化学习会变得非常困难。

另一种办法是引入人类干预,这同样被证明很有用。当机器人进入糟糕或不安全的状态时,人类可以中断推理过程,并把它带回到更好的状态。这也催生出一系列基于人在回路的学习算法,例如 HIL-SERL。

最近最生动的示范,是 Physical Intelligence 的 π*₀.₆。它采用了一种名为 RECAP 的训练方法,把人类掌握一项技能的完整过程编织在了一起:指令学习,也就是观看示教;指导纠错,也就是人类遥操作员实时介入,纠正错误,并教会机器人如何恢复;以及自主练习,也就是机器人独立尝试任务,成千上万次地执行,对自己打分,并保留有效的做法。

其中还有一个巧妙设计:流匹配模型无法直接使用标准强化学习机制,因此 RECAP 转而教会模型区分好动作和坏动作,并在部署时直接要求它生成「好」动作。结果是,在叠衣服、制作浓缩咖啡等困难任务上,机器人吞吐量大约翻倍,失败率降低一半甚至更多,并且能够几乎不间断地运行一整天的咖啡站。

因此,自我改进算法正在解决机器人性能上的关键瓶颈,尤其是在泛化能力方面。

相关内容

从第一性原理看机器人AI:...
机器之心编译 过去几年,机器人行业最常见的高光时刻,几乎都发生在演...
2026-06-28 21:24:04
原创 ...
AI最大的问题,就是幻觉太多,还有会无底线地讨好你。 不管你...
2026-06-28 21:22:37
世界杯32强出炉,&quo...
2026年FIFA美加墨世界杯32强名单产生后,由联想集团与咪咕视...
2026-06-28 21:19:56
活力中国调研行|通用数据大...
每经记者|张蕊 每经编辑|黄胜 “这一年多时间,包括旁边的上下游创...
2026-06-28 21:18:04
DeepSeek完成500...
据智东西,DeepSeek近日开源推测解码框架DSpark及训练框...
2026-06-28 21:16:56

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
8月20日基金净值:前海开源中... 证券之星消息,8月20日,前海开源中国稀缺资产混合A最新单位净值为1.43元,累计净值为1.43元,...