从第一性原理看机器人AI：为什么它比大模型更难？_linux资讯

从第一性原理看机器人AI：为什么它比大模型更难？

创始人

2026-06-28 21:24:04

0次

机器之心编译

过去几年，机器人行业最常见的高光时刻，几乎都发生在演示视频里。

一台机械臂听懂指令，伸手拿起杯子；一个人形机器人走进厨房，把杂物收回原位；它可以叠衣服、拉抽屉、倒咖啡，甚至在陌生房间里完成一连串看似自然的动作。

这些画面很容易让人产生一种错觉：机器人已经开始像人一样理解世界了。

但如果把问题拆到最底层，答案反而朴素得多。

这篇来自 Interlatent（一家聚焦具身智能后训练与部署的早期创业公司）的文章，试图从第一性原理出发，把现代 AI 机器人技术重新讲清楚：一个机器人到底如何理解世界，如何生成动作，又为什么会在数据、延迟和泛化上遇到如此多的困难。

文章给出的切入口非常简单：先把机器人控制问题，看成一个函数。

有一种看似简单、但相当准确的方式，可以用来描述 physical AI 到底在做什么。任何有 STEM 背景的人，应该都能直观理解。和其他所有 AI 模型一样，控制机器人的模型本质上也是一个函数。它接收观测作为输入，比如摄像头像素、关节角度、夹爪感受到的阻力等等；然后输出动作，也就是电机下一步的位置和力矩。除此之外，所有复杂的算法、训练方法和数据扩展理论，都是为了得到这个函数的一个足够好的版本，并把它写入神经网络的权重之中。

机器人策略本质上是一个函数。观测从左侧不断输入，网络对其进行处理和细化，随后一组动作指令从右侧输出，对应机械臂每一个关节，也就是它的每一个自由度。这个领域中的其他一切，都是为了让这一个函数变得足够好、足够快

如果你曾经训练过一个将输入映射到输出的模型，就已经能够理解这个问题的大致形态。真正有意思的地方在于：当你把这个熟悉的问题形态，放进一个不断运动、不断响应的真实世界里，会发生什么。

文章地址：https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles

秘方，以及打破它的维度

有两个核心要素可以提升这一功能的质量：算力与数据。数据是机器人智能的原始燃料，来自真实世界的物理规律如同未经加工的矿石一样蕴藏其中。而算力则通过矩阵乘法，训练该功能去嵌入从数据中挖掘出的这些规律。

这听起来就像是普通的机器学习，而且在相当长一段时间里，你确实可以把它假想成普通机器学习。然而，机器人技术引入了传统机器学习从未需要面对的第三个轴向：推理时间。一个大语言模型可以花上3 秒钟去思考下一个 Token，而不会对任何人造成伤害，但一台正在倒咖啡的机器人绝对不行。此时咖啡杯已经在移动，动作必须在事件发生的过程中同步生成。该功能不仅需要保证正确，还必须足够快，快到当答案送达时，其「正确性」依然具有实际意义。当你的模型还在思考时，物理世界依然在持续运行，这导致机器人领域不得不做出一些既艰难又有趣的抉择。

将大脑一分为二

最自然的第一反应，是训练一个巨大的模型，让它直接从观测映射到动作。但在实践中，这个领域逐渐走向了一种更有意思的方案。现代机器人模型通常被分成两个部分：一个负责理解，一个负责行动。

其中的主干通常是一个大模型，典型形态是视觉语言模型（VLM）。它与 GPT-5 或 Gemini 在同时理解语言和图像时所使用的模型属于同一类。由于它已经在海量互联网图文数据上完成训练，因此某种程度上已经「知道」世界是什么样的。比如，无论颜色如何，杯子都是杯子；把东西收起来，意味着把它放回一个合理的位置。它承载着一种关于世界外观和运行方式的学习表征。这个部分更像一个缓慢、审慎的规划者，负责理解环境。

与之相连的，则是一个小得多的动作专家：一个快速模型，它唯一的任务，就是接收主干模型形成的理解，并将其在实时场景中细化为平滑的电机控制指令。NVIDIA 于 2025 年发布的人形机器人开放基础模型 GR00T N1，就明确采用了这种拆分方式。它的 System 2 VLM 负责对场景进行较慢、更审慎的推理，而独立的 System 1 模块则近乎本能地生成实际动作，两者被紧密地联合训练在一起。Physical Intelligence 的 π₀ 也采用了同样的架构：一个负责理解的 VLM，加上一个负责行动的小型动作头。这就构成了所谓的视觉语言动作模型（Vision-Language-Action model，VLA）。

视觉语言动作模型是一个由两个相互耦合部分组成的网络。大型 VLM 主干负责读取图像、语言和机器人状态，并形成对场景的理解。小型动作专家则接收这种理解，从噪声出发，在一次前向传播中将其细化为一个动作块：也就是一小段未来动作序列。

因此，我们从一个单体式的巨大函数，走向了两个模型之间的协作：一个模型负责保存对世界的图景，另一个更小的模型则负责把这幅图景转化为动作。

动作到底是怎么生成的？

接下来要问的是：这个函数究竟以什么形式输出动作？答案主要有两种，而这个领域的发展史，很大程度上就是从第一种走向第二种的过程。

第一种是离散式的：动作头一次只生成一个动作。模型先观察，输出一条单步指令，执行之后再重新观察。早期系统大多是这样工作的。它直观，也适合一些较简单的问题，但速度太慢，而且小错误会不断累积。每一个细微失误，都会把机器人推向一个比训练时见过的情况稍微陌生一点的状态；下一次预测就会更差，再下一次还会更差。最终，机器人会逐渐偏离自己的能力边界，导致任务失败。

第二种是动作分块，也就是模型一次性预测一小段未来动作序列，然后把它作为一个平滑的整体执行，之后再重新查询模型。这个想法由斯坦福 Tony Zhao 及其合作者在 2023 年提出，名为 Action Chunking with Transformers（ACT）。它的名字借用了心理学中的「chunking」概念，指的是人类会把一连串细小动作组合成一个流畅动作。ACT 带来了重要改进：它只需要大约十分钟的示教数据，就能学会一些对精度要求很高的任务，比如打开半透明调料杯，或者把电池插入卡槽，成功率达到 80%–90%。预测一个动作块，可以缩短任务的有效长度，也能缓解单步预测中反复出现的误差累积问题。

在离散模式下，机器人一次只预测一步，小错误会不断累积，最终让它逐渐偏离自己的能力边界。而在动作分块模式下，机器人会一次性确定一小段动作序列，因此能够始终紧贴预定路径。

现代机器人学的许多思路，其实都在模仿人类行为。人类不会一次只思考一个微小动作，然后再执行它。我们是在连续流动的动作中一边移动、一边思考。现代机器人追求的正是这种连续、分块的动作生成，让动作之间没有僵硬停顿，看起来更像一个活物，而不是一具被牵动的木偶。

当前生成这种平滑动作块的前沿方法叫做流匹配。这是一种通过扩散过程，将带噪声的潜变量逐步细化为连贯轨迹的技术。π₀ 和 GR00T 中的动作专家，都是从噪声出发，迭代地将其细化成一条连贯轨迹。这与现代图像生成器所使用的是同一类技术，只不过这里生成的不是像素，而是动作。

大脑应该放在哪里：边缘端还是云端？

一旦有了这个函数，就必须决定把它运行在哪里。这里会出现一个核心取舍：可用算力与延迟。

你可以把模型放在边缘端，也就是直接运行在连接机器人的计算机上。这样延迟几乎为零，当然前提是模型能够装进边缘设备。这非常适合物理世界中的实时控制，但你会受到机身可搭载硬件的限制，因此往往不得不把模型压小。

也可以把模型放在云端，把重计算任务交给强大的服务器，再通过互联网把动作指令传回机器人。这样可以运行更大的模型，但每一个动作都必须经过一次网络往返，此时延迟就会成为敌人。

这个约束到底有多紧？以 π₀.₅ 为例。在高端 GPU 上，它完成一次完整的感知与动作循环大约需要 274 毫秒，其中约 80% 的时间都花在迭代式流匹配细化上。而在一个以 3Hz 控制循环运行的小型边缘设备上，每个周期总共只有约 330 毫秒，感知和动作生成都必须在这段时间内完成，几乎没有任何余量。

这正是整个领域必须面对的核心问题：云端能给机器人更大的大脑，边缘端能给机器人更快的大脑。但你不能让「思考」与「行动」之间的间隔变得太长，否则等机器人想清楚时，真实世界早已发生了变化。

在边缘端，模型直接在设备上运行，不经过网络，但由于加速器性能较弱，所以计算耗时更长。切换到云端后，更强的 GPU 会缩短计算时间，但现在每一个动作都要经过一次网络往返。把网络往返延迟往上拖动，你就会看到总耗时超过 330 毫秒的截止线。

数据瓶颈

和许多深度学习问题一样，机器人学也受困于数据。但对机器人学来说，真正麻烦的地方尤其在于数据的多样性。

最丰富的机器人数据来自遥操作：由人类一遍又一遍地操控机器人完成某项任务。专家示教通常能够稳定地产生优秀策略，但它很难规模化。每一小时数据都意味着一小时的人类劳动成本；在某些情况下甚至需要更多，因为示教质量本身很重要。更糟的是，每一种机器人、每一种夹爪、每一个实验室，往往都会产生一套彼此不兼容的小型数据集。GR00T 团队很贴切地把这种状况称为由一个个「数据孤岛」组成的群岛，而不是一片统一、连贯、互联网规模的数据海洋。

这与 AI 其他领域的发展路径形成了对比。在其他 AI 领域，关键魔法往往是一样的：把问题转化为可以用计算规模化解决的形式。比如，语言建模之所以能够扩展，是因为文本数据极其丰富，而且可以相对通用地互换使用。机器人学没有类似的数据洪流。因此，这个领域分化出了两种策略，用来制造那些无法简单收集到的数据。

策略一：模拟世界

如果无法从真实世界中收集到足够多的数据，那就构建一个假的世界，让机器人在那里免费练习。这正是世界模型和仿真发挥作用的地方。准确地说，仿真是一个更宽泛的概念，指任何能够足够好地建模世界、以便在其中练习的系统。世界模型则是一种神经网络：给定当前状态和一个动作，它会预测世界接下来会变成什么样。它学习行动带来的后果，通常会通过图像等媒介来表达；更关键的是，它从观察中学习物理规律，而不是依赖人工编写的规则，因此能够捕捉目标环境中重要的动态特征。

2025–2026 年，这一方向的关键跃迁来自 Google DeepMind 的 Genie 3。它是一个世界模型，只需要文本提示，就能实时生成完全可交互、可导航的 3D 环境，并根据此前帧来预测每一帧。它对机器人学的意义显而易见：可以提供无限、廉价的训练场景，包括那些你绝不会想在现实中搭建的危险边缘案例。Waymo 走的正是这条路线，构建了 Waymo World Model，用来生成同步的摄像头与激光雷达驾驶场景，其中包含真实车辆几乎很少遇到的罕见情况。NVIDIA 也发现，在 GR00T 的训练中混入合成数据，相比只使用真实数据，性能提升了 40%。这个方向的愿景，是把数据问题转化为计算问题。一旦做到这一点，机器人学就能继承 AI 其他领域已经享受到的所有优势。

策略二：向日常生活中的人类学习

第二种策略更隐蔽，在我们看来也更优雅。最具规模化潜力的机器人数据收集器，其实是戴着眼镜的人，而非机器人。

Meta 的 Ego4D 等项目，以及 Project Aria 眼镜，彻底重构了这个问题。Ego4D 收集了超过 3000 小时的人类第一视角视频，记录的是人们完成日常事务的过程。佐治亚理工的一套系统 EgoMimic 对这一点概括得很准确：当你看到一个庞大的人类第一视角数据集时，你看到的本质上也可以是一个庞大的机器人数据集，只不过它是由人们在日常生活中被动生成的。

你戴上眼镜，照常生活，就已经在以人类生活本身的规模生产操作数据。那项工作中最引人注意的发现是：额外增加一小时人类手部数据，对机器人的提升效果，超过额外增加一小时机器人数据。

因此，相比需要专门投入人力的遥操作，第一视角数据收集承诺了一种更低额外成本的大规模数据路径。

训练

有了架构和数据之后，怎样才能真正造出一个有能力的机器人？答案是分阶段完成，每个阶段都有不同目标。

能力是在一个个阶段中建立起来的，每一层都建立在前一层之上。

预训练负责塑造 VLM 主干。你向它输入海量关于空间推理以及世界一般运行方式的数据，目标是让它建立起对物理世界的理解和推理能力。

中期训练负责创建动作专家。目标是得到一个在几乎任何配置下都能大致工作的「大脑」，它能够把自身理解转化为各种动作，并适配多种不同类型的机器人。这需要大量来自不同环境、不同机器人形态的数据。

后训练，也就是微调，则是把这个通用大脑调适到某个具体身体和一小组具体任务上。比如，把一个通用模型专门适配到某个双臂机器人系统上，它就能在这种具体形态下开箱即用，并取得还不错的效果。这个阶段，真实世界数据的价值会真正体现出来：遥操作数据和第一视角数据，往往最能直接转化为现实表现。

部署训练的目标，是让机器人适应某一个具体环境，直到它在那里真正安全、真正有用。这正是「能在演示里工作」和「能在你家厨房里工作」之间的差距。许多看起来很惊艳的系统，最后都会在这里悄悄失效。π₀.₅ 之所以有意思，正是因为它试图缩小这道鸿沟：它被设计用来清理训练中从未见过的家庭厨房和卧室。它经常能做到，虽然并不完美，但已经能看到一丝类似人类进入陌生房间时所展现出的应变能力。

让机器人自我教学

但这一切都有上限。一个只靠示教训练出来的机器人，最多也只能变得和示教一样好。它学会的是理想路径，却没有学会如何从自己的错误中恢复，因为它从未真正见过这些错误。这就像只看完美驾驶视频来学开车一样：一旦第一次转错弯，就会手足无措。

出路在于像人类一样学习：练习，并接受批评。这就是强化学习：让机器人尝试，对结果打分，再强化那些有效的行为。问题在于，你不可能在每一个时刻都监督机器人，也不可能为每一种可能情况都提供样例。而在真实世界中，不同于模拟器，每一次尝试都是串行的、缓慢的，还需要人类重新布置场景。因此，物理世界中的强化学习会变得非常困难。

另一种办法是引入人类干预，这同样被证明很有用。当机器人进入糟糕或不安全的状态时，人类可以中断推理过程，并把它带回到更好的状态。这也催生出一系列基于人在回路的学习算法，例如 HIL-SERL。

最近最生动的示范，是 Physical Intelligence 的 π*₀.₆。它采用了一种名为 RECAP 的训练方法，把人类掌握一项技能的完整过程编织在了一起：指令学习，也就是观看示教；指导纠错，也就是人类遥操作员实时介入，纠正错误，并教会机器人如何恢复；以及自主练习，也就是机器人独立尝试任务，成千上万次地执行，对自己打分，并保留有效的做法。

其中还有一个巧妙设计：流匹配模型无法直接使用标准强化学习机制，因此 RECAP 转而教会模型区分好动作和坏动作，并在部署时直接要求它生成「好」动作。结果是，在叠衣服、制作浓缩咖啡等困难任务上，机器人吞吐量大约翻倍，失败率降低一半甚至更多，并且能够几乎不间断地运行一整天的咖啡站。

因此，自我改进算法正在解决机器人性能上的关键瓶颈，尤其是在泛化能力方面。

数据机器人语言文章模型训练函数主干动作世界人类

上一篇：原创 AI报志愿成趋势！但AI有四大致命漏洞，今年考生和家长要懂得正确使用AI

下一篇：没有了

从第一性原理看机器人AI：为什么它比大模型更难？

相关内容

热门资讯