10月25日,特斯拉AI负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy)在X上发布长文,揭秘了特斯拉FSD的技术方法论,信息量非常大。
简单来说,特斯拉正在用「端到端」的神经网络,把自动驾驶这件事变成一个纯粹的AI问题,而不是一个需要无数工程师写规则的工程学问题。
他们认为,行业主流的把感知、预测、规划拆开做的「模块化」老路子不仅笨重,而且天花板明显,端到端AI模型才是自动驾驶正解。
稿件重点如下:
核心路线之争:为什么必须是「端到端」?
行业主流方案是“感知、预测、规划”三件套,各模块独立工作再拼起来,特斯拉认为斯拉认为这种方式接口复杂、难以优化。而「端到端」AI模型直接“看”到像素,“吐出”驾驶指令,一步到位,整个系统可以被整体优化。这不仅是为了解决驾驶问题,更是为了在AI的「苦涩教训」面前,站在可规模化扩展的正确一侧。
AI如何处理“人性”难题?
现实驾驶充满了“是碾过水坑,还是借道逆行”这样的「迷你电车难题」。这种需要权衡利弊的微妙决策,很难用代码写死,但通过学习海量的人类驾驶数据,AI能潜移默化地学会符合人类价值观的驾驶策略。
AI能读懂“弦外之音”
FSD能分清「一群想要过马路的鸡」和「一群只想在路边闲逛的鹅」,从而做出不同决策。这种对“潜在意图”的理解,在模块化系统里很难传递,但端到端模型可以在其“潜在空间”里轻松理解和处理。
数据洪流淹没「维度诅咒」
FSD每秒要处理来自摄像头、地图、音频等高达20亿个输入信息,并瞬间决策,压缩成2个指令(转向和加速)。解决这个难题的唯一武器,就是特斯拉车队每天产生的、相当于500年驾驶时长的「数据尼亚加拉大瀑布」,通过智能筛选,用最精华的数据喂养AI。
“大力出奇迹”的效果:预判你的预判
海量数据训练出了惊人的泛化能力。在一个雨天路滑的案例中,FSD在事故发生前5秒就开始减速,因为它预判到前车失控后会「撞墙反弹」回到自己车道。这种对「二阶效应」的提前预判,是传统方案难以企及的。
打开AI“黑箱”的两把钥匙
为了解决端到端模型难以调试和解释的问题,特斯拉让模型在输出驾驶指令的同时,也输出可供理解的“中间结果”。文中提到了两招:
视觉重建:利用「生成式高斯泼溅」技术,在220毫秒内,根据摄像头视频实时生成周围环境的动态3D模型,让工程师能“看见”AI眼中的世界。
语言解释:训练AI用自然语言来解释自己的行为。一个小型化的语言推理模型,其实已经在FSD v14.x版本中运行了。
最难的挑战是“评估”
模型跑分再高也没用,真实世界的评测才是最难的。为此,特斯拉开发了一个「神经世界模拟器」。这个模拟器本身也是一个强大的AI,能实时生成以假乱真的虚拟世界。它不仅能复现历史数据,还能创造各种极端的事故场景,对FSD进行“地狱模式”的压力测试。本质上,特斯拉为FSD造了一个超现实的“驾驶游戏”,让它在里面7x24小时不间断地“打怪升级”。
这套技术栈的终极目标:一套AI,通吃所有
这套方法论不仅适用于汽车,还能无缝迁移到特斯拉的「擎天柱」人形机器人上。文章展示了模拟器已经可以生成擎天柱在工厂里导航的画面,证明了其技术的通用性,最终目标是解决现实世界的通用人工智能问题。
附注:Ashok Elluswamy是特斯拉的AI软件副总裁,负责特斯拉的人工智能业务。他于2024年晋升至现职,此前曾任自动驾驶软件总监。自2022年起,他直接向马斯克汇报工作,曾参与特斯拉自动驾驶系统的早期开发。
原文如下:
【特斯拉的自动驾驶方法】
本周,我有幸在国际计算机视觉大会(International Conference of Computer Vision)上,代表@Tesla_AI团队展示了我们近期的部分工作成果。在这篇演讲的精简版中,我们将探讨特斯拉解决自动驾驶问题所采用方法的一些核心要点。