作者 | 木子、高允毅
2023 年 4 月,在很多人刚听说“大模型”这个词的时候,智谱团队开始研究一个听上去不太现实的目标:
让 AI 真正学会“使用手机”,也就是像真人一样,对智能手机等设备具有使用能力。
32 个月后,智谱把阶段性重要成果、核心 AI Agent 模型:AutoGLM给完整开源了出来,并放话:“每台手机,都可以成为 AI 手机。”
AutoGLM 拥有 Phone-Use(手机操作)能力,包括点击、滑动、输入、截图理解、流程恢复、噪声处理……既能稳定完成外卖点单,也能完成机票预订等长达数十步的复杂操作流程。
目前,AutoGLM 已支持上百个主流 APP,包括以下这些:
另外,AutoGLM 还能同时在上千台云端虚拟手机里“练功”,通过强化学习等极大地扩展了 Agent 的准确性和泛化能力。而且它被严格关在虚拟设备的安全沙箱里,既能自由试错,又不会碰到用户真实手机上的隐私数据。
智谱今天开源的是一整套可以“拿来就用”的能力,具体包括:
训练好的核心模型;
Phone Use 能力框架与工具链;
可直接跑通的 Demo,覆盖 50+ 高频中文 App;
针对 Android 的适配层与示例工程;
文档、快速上手指南
模型会以 MIT 开源许可证的形式开放,而所有代码会以 Apache-2.0 开源许可证的形式,托管在 GitHub 仓库中:github.com/zai-org/Open-AutoGLM。
为什么选择开源?
“从产品的角度,AutoGLM 已经可以支撑起很多真实场景;从工程的角度,AutoGLM 的积累足够写成一大摞技术报告。”
为什么选择在这个时间点把辛辛苦苦做的东西开源呢?看完官方自白,不得不说,智谱的格局还挺大。
首先,智谱认为“AI 手机”是大势所趋,但这不是一家公司就能完成的任务,更不应该掌握在极少数厂商手里。
18 年前,苹果以智能手机奠定生态时代的范式;Siri 问世后,语音助手成了标配,但功能多停留在查天气、设闹钟,距离真正的智能仍相去甚远。
如今 AI 登场,变革已成共识。大模型不再只是给手机添点“智能”、做做答问,而是深入系统流程,像全能管家般跨 App 完成订票、点餐、取消续费等复杂操作,让手机真正迈向下一代计算入口。
也正因为这将重塑手机的能力与地位,一旦被少数厂商垄断,那么开发者的创新空间,要看平台愿不愿意开放接口;而用户日常生活中最重要的那台设备,也会越来越像“别人家的入口”。
智谱希望:“AutoGLM 的开源,能把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。”
他们把 AutoGLM 比喻成积木,表示可以拿来即用,成为系统的一部分,也可以拆开、重写、改造,变成新产品的元素。
其次,隐私是 AI 手机一个避不开的问题。
可以想象,如果 AI 可以操控手机,像管家一样读取、操作、解决问题,虽然带来了便利,但也成为了知晓用户一切根底的隐形炸弹。
像个人微信、支付、聊天记录、照片相册、企业内部系统等等信息,必须掌握在用户自己手里。
智谱的解法是,通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。也就是说,这个 AI 能力免费发放,数据与隐私永远留在使用方这一侧。
第三,智谱希望“自己吃过的苦,别人别再吃了”。
“把我们走过的路,变成大家在 Agent 爆发时代的起跑线。
AutoGLM 是一条很陡的路:我们啃过的技术难题、踩过的坑、重写过的框架,在很多场景里都可以复用,也值得被复用。”
他们想在未来看到这样情形:
商业层面上,有团队因为 AutoGLM,做出真正意义上的 AI 原生手机;
技术层面上,有研究者因为其中某个模块,写出一篇新论文、新算法;
生态层面上,个人开发者可以利用 AutoGLM,做出自己的项目,在某个小众场景里真正跑起来。
AutoGLM&AI 手机行业前景
其实 AutoGLM 的这些智能手机操作能力,和最近热门的“豆包手机助手”也有不少异曲同工之处。我们 先来回顾一下 AutoGLM 是什么,再来聊聊 AI 手机行业前景。
全球首个手机智能体
2024 年 11 月,有件事在技术圈“小引热议”:AI 第一次自己发出了一个手机红包。
这不是脚本自动化,也不是调用某个内部 API,而是一个模型就能“看懂”界面内容,再一步一步完成点击流程。过去大家普遍认为这件事极其困难,还有人觉得不可能做到足够稳定。
而这背后的神奇新模型,正是 AutoGLM。
图源:智谱官方微信公众号
简单来说,它是智谱打造的、用于真实设备 GUI(图形用户界面)操作的基础智能体(foundation agents), 可以在真实或虚拟手机上执行长链路、多步骤的操作任务,初代于 2024 年 10 月发布。
AutoGLM 不仅能理解复杂 UI、规划复杂任务,还 具备错误恢复能力,这是 Agent 可以部署的前提。
而它之所以能实现 Phone-Use 等强大能力,主要归功于以下 三大核心技术的突破或创新应用。
这种结构,让规划层更加灵活,解决“LLM 看得懂但点不准”的核心难题,大幅提升跨 APP、跨网页的泛化能力。
据智谱论文信息,中间接口(Intermediate Interface)设计,让 GPT-4o 视觉模式的网页任务执行成功率,从 18%(端到端方式) 提到了 36.4%,翻了倍。
提出 MobileRL、ComputerRL、AgentRL;验证强化学习规模扩展定律;在上千台虚拟设备中并行训练,能力显著增强。
第二,AutoGLM 的错误恢复能力,主要得益于自进化式的 Curriculum RL,模型通过这个 RL 框架可以自进化、自我纠错、自我变强。
通过奖励模型(RM)评估每一步是否朝正确方向推进,还可以通过 mutate 指令提高或降低任务难度。模型提前在上千个虚拟环境经过大量试错和恢复训练,让其能在真机上顺利跑通几十步流程。
第三,是大规模可控环境,包括 WebArena、AndroidLab,和云手机集群。
其中,WebArena 是真实网页环境,AndroidLab 是系统级 Android 环境,云手机集群则是上千台虚拟和真实设备并行训练。
大量的场景覆盖和经验,让模型具备了出色的泛化能力,这和谷歌的 AutoRT、WebVoyager、Gemini + Android App 等 Agent 技术高度类似。
——模型不是靠记规则,而是靠大量真实任务经验,学会在陌生场景中稳健执行操作。
值得一提的是,今年初 Manus 横空出世,让 AI Agent 迅速爆红,但 Manus 仅在 3 个月后便迅速撤出了中国市场。不久后,在今年 8 月,智谱发布 AutoGLM 2.0,也是全球首个手机智能体。
但“一花独放不是春”
在手机 Agent浪潮奔涌之时,智谱愿化作那块关键拼图,为未来的版图添上应有的一角:
“‘一花独放不是春’。Agent 的爆发,需要所有人一起参与。”
至于 “AI 手机”这个概念,本质上是把大模型深度塞进手机里,让其从单一工具升级成能感知、能决策、能跨 App 代办事务的随身智能体。
随着端侧 AI 的成熟,AI 手机的盘子正在快速扩张。
据 IDC 预计, 2026 年中国新一代 AI 手机出货量将达到 1.47 亿台,占总体市场的 53%。
而赛迪顾问也发布了一个报告,判断 2027 年 AI 手机销量将跃升至 1.86 亿部,占比 56.1%,并强调“端侧主导、生成式创新与硬件突破”将继续推进行业高速增长。
这和之前的数据相比,已有大幅跃升:2023 年,中国 AI 手机销售量达到 1100 万部,占全球 AI 手机销售量 22%。2024 年,中国市场的新型 AI 智能手机出货量预计将超过 3500 万部,预估市场占有率为 12%。
但目前 AI 手机效果如何呢?实际体验仍处在 “宣传大于实际”的早期阶段。
今年年初,21 财经曾对六款 AI 手机进行了测评,发现多数智能体在订咖啡、跨应用操作等场景下不是中途卡住,就是需要多轮确认;能稳定跑完流程的主要是荣耀 YOYO,但离“全自动化”仍有明显差距,跨 App 操作成功率依然受限于权限、界面变化等工程难题。
这也让行业将技术路线分成两派:依赖 App 授权的“意图框架”,和无需授权、靠读屏与模拟操作的“视觉路线(GUI Agent)”。
简单来说,前者是走“官方通道”,App 得先点头授权,Agent 才能直接调用它的功能;后者则是“看着学”:智能体自己读屏幕、看按钮、模拟人手点来点去,就像站在你旁边学你怎么操作手机。
最近出圈的 “豆包手机”,就是尝试把 GUI Agent 做到系统级。
豆包手机其实是字节跳动在做的一次低调试水,它由中兴代工,首批约 3 万台,主要供内部测试,没有对外销售。不过据传,因需求旺盛,目前在闲鱼被炒到近 8000 元。
据晚点报道,该手机背后的核心团队是字节负责 AI 硬件的 Ocean,他们由 PICO、OlaDance、锤子等多个硬件团队整合而来,目标是探索“大模型 + 超级 App + 硬件”的新形态。
字节原本想把豆包大模型提供给手机厂商作为系统级能力,但多数厂商担心失去大模型时代的主导权而拒绝合作,最终促使字节决定亲自下场做手机,并已启动第二代产品研发,预计在 2026 年底推出。
高盛在报告中指出,第三方 AI 想在手机里大规模落地并不容易:权限拿不到、数据摸不到、应用不一定愿意配合,导致智能体既难看清手机、也难稳定操作。
如今各大厂商普遍把“大模型”当作下一代手机的灵魂,更倾向与体量更小、可控性更强的大模型公司合作——比如 OPPO 选择阶跃星辰,而荣耀、三星等厂商则采用了智谱。
也正是在这场竞争中,智谱的角色愈发清晰:他们不是要取代手机厂,而是以开放、易集成的底层能力,成为 AI 手机生态里那块关键拼图,帮助更多厂商真正把“智能体”从概念变成用户愿意天天依赖的体验。
AI 手机的下一代入口之争刚刚开始,而决定最终格局的,将是哪些技术力量能够真正让智能体落地、跑稳、跑广。
传送门:
github.com/zai-org/Open-AutoGLM
参考链接:
https://arxiv.org/abs/2411.00820
声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。
下一篇:AI赋能影视的三重影响