henry 发自 凹非寺
量子位 | 公众号 QbitAI
“很多模型在模拟器里完美运行,但一到现实就彻底失灵。”
在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。
唐文斌是旷视科技联合创始人兼CTO,原力灵机(Dexmal)CEO、清华大学“姚班”出身、首届“Yao Award”金牌得主。
针对当前痛点,他和团队联合Hugging Face推出了RoboChallenge.ai——一个开放、统一、可复现的真实世界机器人评测平台。
RoboChallenge.ai首次让全球研究者在物理环境中远程测试模型,通过独创的Remote Robot,模型可留在本地,用户仅通过API就可以控制真实机器人。
在这场对谈中,唐文斌和Thomas探讨了:
开源作为AI领域的真正驱动力为何能延伸至机器人?
如何搭建一个“真实世界+可复现+公平公开”的机器人评测平台?
在未来三到五年内——具身智能的研究尺度将如何演进?
接下来,我们一起来看。
Q:Hugging Face怎么看开源在“物理智能”(Physical AI)或“具身智能”的作用?
Thomas Wolf:首先,我们要记住,AI领域几乎所有的重大突破都基于开源。
比如transformer架构本身,就是Google开源的。正因为开源,我们才能发现它的潜力,也正因为如此,OpenAI才能进一步发展它。
最近transformer架构的很多演化——包括RoPE位置编码(旋转位置编码)——也是开源社区共同创造的成果。
这是全球协作的产物,包括来自中国、美国、欧洲的团队。我认为,这正是推动重大进步的方式。
我也期待机器人领域会出现同样的情况——通过保持一个活跃的开源社区,我们能让更多团队理解当前的技术前沿,共同头脑风暴新的发展方向。
第二点是,开源在我们探索新的领域时尤为关键。
现在AI领域有很多新的研究方向。举个例子,“交互式世界模型”(interactive world models)——它们像一部可以互动的电影,你不仅能看,还能与之互动。
通常人们在进入一个全新的方向时,会先拿一个开源的预训练模型,比如一个视频模型,然后在此基础上改进。
如果你无法访问这些开源模型,就没办法去做类似的事——你没法拿到Sora,然后去改造成适配你机器人的模型,对吧?
所以这就是为什么开源至关重要。
在机器人领域也是同样的道理。
现在新兴的VLA(视觉-语言-动作)模型,几乎都是从开源模型出发,经过修改、调整后适配到机器人上。
因此,我认为开源是我们探索这些新能力的关键基础。第三点,我认为开源对机器人领域的重要性,甚至会超过它在大语言模型(LLM)中的作用。
原因主要有几点。在机器人领域,如果你希望别人使用你的机器人或者你的模型,他们首先得买到这台机器人。
这其实是一个限制——因为只有买了机器人,才能使用你的模型。而在LLM领域,你只需要上网就能使用模型。
但这件事同时也带来一个好处:如果模型是开源的,那么它就可以被应用到很多不同的机器人上。
这样,不同类型机器人的开发者都有可能使用一个共同的大脑(common brain)来驱动各自的机器人。
我觉得这是一个在LLM时代所没有的全新局面,也将会非常有趣。而这之所以可能,正是因为开源——如果我们想让一个模型在各种机器人上都能运行,那么把它开源是最合理的选择。
第四点。对于机器人来说,让模型本地运行在机器人内部其实非常有价值——这背后有很多原因。
比如安全性:如果机器人突然断网,或者蓝牙、Wi-Fi连接中断,我们仍然希望机器人能安全地完成当前任务,而不是在关键动作中突然“卡死”或者“失控”。
而最自然的方式,就是让模型本地化——直接嵌入机器人内部运行。目前几乎所有这类嵌入式模型(local model)都是开源模型。
所以我认为,开源在这里非常自然地与硬件开发相辅相成,它是推动机器人领域演化的关键动力之一。
Q:Open LLM Leaderboard是LLM的经典基准测试,开放和透明的基准测试在具身智能领域中会带来怎样的影响?
Thomas Wolf(Thomas Wolf):我们自己也很惊讶,Open LLM Leaderboard对整个领域的重要性远远超出了预期。我们运行了这个榜单好几年。后来决定让它“退役”,主要有两个原因:
一是评测指标趋于饱和。
二是更重要的——整个世界的注意力从“大语言模型”转向了“智能体(agent)。
那时我们觉得,仅仅用单轮问答、知识问答的方式来评测LLM已经有点奇怪了。因为我们希望LLM能做的事情,越来越像一个“在交互世界中行动的智能体”。
而这正好让LLM开始越来越接近机器人——毕竟机器人同样是在一个会反应的世界中行动的系统。
所以当我们在大约一年前正式关闭榜单时,很多人都感到非常惋惜。
很多研究者联系到我们,说这个榜单是整个生态的重要基石。
我认为原因在于:在“模型竞赛”的环境下,各个实验室都在竞争,他们往往会想办法“推”指标向有利于自己的方向发展。
比如,他们会让模型在最有利的设定下进行评测,这当然可以理解,但有时在与其他模型对比时,就可能没有做到完全公平。
而有一个独立的平台来客观评估所有模型、以标准化、可复现的方式运行测试,这就非常重要。我们当时提供的评测脚本,用户可以直接在本地运行、复现结果——这极大增强了可信度。
同时,这种独立的评估还能帮助社区“过滤掉噪音”,不被营销视频或夸张演示所误导。
我认为这一点是当前机器人领域所缺乏的。
首先,在机器人领域进行真正的评测非常困难。
再加上大家都倾向于“挑视频”,展示机器人在最完美状态下的表现。
所以,我认为我们非常需要某种独立评测机制——或者至少一个团队,来认真解决这个问题:我们能否建立一种可靠的机器人评估体系,从而真正了解当下最优秀的视觉-语言-动作(VLA)模型,以及最有效的技术方案是什么?
我觉得这其实是我们在另一个项目Lerobot中所做工作的延续。我们的目标是建立一个统一的代码仓库,让各种新的训练方法都能在几乎相同的条件下进行横向比较。
理论上,你只需要改动一行命令参数,就可以从一种训练方法(比如ACT)切换到另一种(比如Diffusion Policy)。
但这只是问题的一部分——即便我们有了能统一运行多种策略的软件框架,我们仍然要在特定环境中执行它们。而这恰恰是困难所在。
这也是Dexmal团队现在正在努力解决的问题。
唐文斌:是的,我完全同意你的看法。
目前,很多机器人研究仍然主要发生在仿真环境中。但我们都知道,“仿真到现实(sim-to-real)”之间存在很大的鸿沟——有些方法在仿真环境里表现完美,但一旦放到真实世界中就彻底失败。
所以我认为,建立一个基于真实环境的评估体系非常重要。
而现在,在这个领域中,我们其实还没有一个统一、开放且可复现的基准系统,来公平比较不同的方法、策略和模型。
既然我们没有这样的体系,那我们就在想:我们能做些什么?能否自己建立这样的平台?
这正是我们启动RobotChallenge.ai的原因。我们非常高兴能邀请Hugging Face参与这个项目——希望我们能一起打造一个统一、开放且可复现的机器人基准评测平台。
Q:请你介绍一下RobotChallenge
唐文斌:其实我刚才已经提到,我们为什么要创建这个平台。
机器人正在从工厂走向家庭,逐步进入人类的日常生活。在这个领域的研究也非常火热,比如VLA。
但目前仍然没有统一的方式来衡量整个领域的进展,也没有办法在真实物理机器人上比较不同模型的表现。
今天的大多数基准仍然基于仿真环境,而由于“仿真到现实”的差距,我们其实并不知道哪个模型更好,也不知道它们在现实中的表现如何。
所以我们问自己:如果我们能建立一种开放、标准化、基于真实机器人的评估方式,那会怎样?
这正是我们创建RobotChallenge.ai平台的初衷——它是对仿真测试的现实世界补充,通过它,我们可以弥合仿真与现实之间的鸿沟。
我们提供共享数据和标准化评估。研究者可以远程提交模型,并在真实机器人上进行实验。他们可以身处世界任何地方,通过我们的系统远程测试真实机器人,而我们会提供排行榜(leaderboard)来展示结果。
当然,这个平台的建设并不容易,背后有许多繁琐的工作。
首先,要在真实环境中实现可复现、公平的测试非常困难。比如,机器人本身的配置、实验环境的布置——这些变量都必须严格控制。
其次,如何让用户访问机器人并提交模型也是难题。我们的机器人部署在本地服务器上,而用户的模型通常在他们自己的系统中,模型部署也不容易。
为此,我们开发了一种机制,叫做Remote Robots。通过这种方式,用户无需上传模型到我们这边。模型可以留在用户端,而用户可以通过HTTP API访问我们的摄像头、机器人并进行远程测试,这就是我们现在正在做的事情。
第三,定义基准(benchmark)本身也很难。我们目前以Table 30作为起点——这不是最终方案,但它是一个坚实的第一步,难度适中,可以用来评估模型并为所有参与者提供参考信息。
当然,我们也会与专家委员会和研究社区紧密合作,在未来共同定义出一个真正的黄金基准。
总之,这其中有很多细节、很多繁琐的工作。我们已经发布了一篇技术报告,可以在我们的网站或者arXiv上下载。
总的来说,Robot Challenge是一个基准评测平台,它的目标是让具身智能(Embodied Intelligence)研究变得更加开放、公平、且可访问。
Thomas Wolf:你们正在解决一些非常困难的问题,比如如何远程控制机器人、如何在不在现场的情况下进行公平评估。我觉得你们的解决方案非常务实而优雅,真的令人兴奋。
嗯,我觉得这个问题总体上还是在讨论,如何让整个社区参与到机器人研究的共建中来。
机器人学这里的确有一些特殊的挑战——比如,代码可以放在 GitHub 上,大家都能围绕同一个代码库协作,但机器人是实体的,必须在某个具体地点。
那我们该如何让人们感觉到自己是在一个“共同的机器人社区”中建造东西?我很好奇,你怎么看待这里的社区生态?
Q:你最期待看到哪些群体加入 Robot Challenge?是学术界?还是公司?或者是一些业余开发者?
是的,我认为我们第一个基准测试主要针对通用策略(general policy),也就是基础模型(base model)。
目前在做最强基础模型的,主要还是学术界和公司。对于爱好者,我们可能之后会设计一些小型挑战,面向个人开发者。但就现在而言,基础模型的评测更多是针对学术机构和初创公司。
事实上,目前已经有不少开源模型,比如ACT、Pi-Zero、Pi0、Pi0.5等。
我们可以通过志愿者测试这些模型,因为它们是公开可下载的。
在我们的基准测试中,我们为这30个任务发布了一部分微调数据——每个任务大约提供1000个episodes。
开发者可以下载这些数据集,对模型进行微调,然后测试其在任务上的表现。
所以我认为,最先参与的用户群体主要会是学术界和初创公司。
Thomas Wolf:另一个巨大挑战就是数据——如何让人们能够获取到足够的数据。你们开放提供每个任务1000个episodes的举措非常好,因为数据确实是机器人学的一大瓶颈。
我们不像互联网那样有海量数据来训练机器人。多数情况下,研究者需要自己构建数据集。
我认为,未来社区可以在这方面发挥关键作用。如果一些大型、活跃的数据标注团队决定开放部分数据,我们就有可能建立一个超大型的共享机器人训练数据集。
在Hugging Face,我们也在往这个方向迈出小步,比如先推动数据格式的标准化,使得数据整合更容易。这往往与更好的评估体系是相辅相成的。这两个趋势对于通用机器人技术的发展非常重要。
在我们的平台上,我们也看到社区提供的数据集数量正呈指数级增长。所以我对未来非常乐观,相信我们会有越来越多开源数据集来训练和微调机器人模型。
唐文斌:那Thomas,你怎么看社区精神对机器人和具身智能(embodied intelligence)研究的推动作用?
Thomas Wolf:我觉得其实现在每个人都可以参与。比如你可以买一些廉价的机器人——有些是我们自己推出的,比如so100或Richie Mini,今年晚些时候就会发货。
你可以用它们采集数据、分享数据,从而增加数据的多样性。
因为关键问题不仅仅是数据量,还有数据的多样性。如果我们能在全球不同的地方采集数据,就更容易训练出更鲁棒的策略。
我们希望未来的机器人无论是在欧洲、中国还是美国的家庭中,都能找到自己的路径。
社区还能在算法层面作出贡献,比如探索如何微调策略、如何设计训练架构、如何混合不同数据、如何制定合适的训练计划——这些都有很大的研究空间。
此外,机器人模型目前其实还比较小,很多必须运行在嵌入式系统上,这也意味着人们在家中或小规模环境中也能比较容易地进行训练。
这是另一个让社区更容易参与机器人研究的理由。
Q:Robot Challenge.AI的下一步是什么?
Thomas Wolf:我觉得我们应该尝试很多方向。毕竟这是第一次在真实世界里进行开放式机器人挑战,我很期待看到它的发展。
我希望开发者们能积极参与、提交他们的模型,让这个平台充满活力。
从更广的视角来看,我认为评测方式也应该多样化——包括仿真测试,因为那仍然是更容易的方式。
就像大语言模型(LLM)的发展一样,未来我们也会看到多种评测体系的共存——某些会成为最重要的,比如LLM早期的MMLU,后来的SWE-bench。
但目前我会鼓励大家:来提交你的模型,一起试试这个新的基准,看看它是否真的正确。
我对这个项目非常有信心。它设计得很用心,也与现有的评测不同,虽然这是第一次尝试,但我相信未来我们会持续优化。
但这是迈向“真实世界基准”的非常重要的第一步,我对这个方向非常兴奋。
唐文斌:Robot Challenge目前遵循的是完全开放的策略。
我们提供免费的评测服务,任何人都可以提交模型,我们负责评测并进行排名。
这个第一个基准并不是“黄金基准”,只是第一步——让我们能基于真实机器人对模型进行比较,从而积累经验,再定义下一个更好的基准。
我们可以评估的维度很多,比如多任务(multi-domain)、长时任务(long-horizon)、交互任务(interactive tasks)等。
我们希望提供一个可复现、开放、统一的平台,让大家能公平比较。这就是我们的目标,我相信这对社区来说是一件好事。
Thomas Wolf:三到五年后,具身智能研究会发展到机器人能执行越来越长的任务——从现在的几分钟,到未来的几小时甚至更久。那时的基准测试也会随之演化。
我可以想象,三年后我们可能会看到这样的场景:机器人被要求连续执行一整天的复杂任务,而这就成了新的基准。想到这里我就很兴奋。
唐文斌:比如多模态感知、动态环境适应、长时序任务等等,未来都可以测试。这就是技术发展的方向。
One more thing
Dexmal(原力灵机)于去年年底注册,并于今年3月5日正式成立。
成立仅20天,这家AI初创公司就宣布完成2亿元天使轮融资,投资方包括君联资本、九坤创投和启明创投。
Dexmal由旷视科技三位联合创始人之一唐文斌担任联合创始人兼CEO,核心团队成员范浩强、周而进、汪天才同样出自旷视科技,可谓“黄金阵容”再度聚首。
尽管成立时间短暂,但团队成员均拥有超过十年的AI原生产品与落地经验,具备从算法到商业化的完整能力链。
如今,他们希望将大模型和AI技术引入机器人领域,专注于“具身智能”(Embodied AI),开启新的技术探索。
随着这支团队将目光从视觉转向具身智能新赛道,他们能否再次引领行业风口,值得期待。
官网:https://robochallenge.ai
GitHub:https://github.com/RoboChallenge/RoboChallengeInference
Hugging Face:https://huggingface.co/RoboChallengeAI