搅局者来了!智谱重磅开源AutoGLM,让“豆包手机”人人可造!官方:AI手机不该掌握在少数厂商手中
创始人
2025-12-11 13:45:40
0

作者 | 木子、高允毅

2023 年 4 月,在很多人刚听说“大模型”这个词的时候,智谱团队开始研究一个听上去不太现实的目标:

让 AI 真正学会“使用手机”,也就是像真人一样,对智能手机等设备具有使用能力。

32 个月后,智谱把阶段性重要成果、核心 AI Agent 模型:AutoGLM完整开源了出来,并放话:“每台手机,都可以成为 AI 手机。”

AutoGLM 拥有 Phone-Use(手机操作)能力,包括点击、滑动、输入、截图理解、流程恢复、噪声处理……既能稳定完成外卖点单,也能完成机票预订等长达数十步的复杂操作流程。

目前,AutoGLM 已支持上百个主流 APP,包括以下这些:

另外,AutoGLM 还能同时在上千台云端虚拟手机里“练功”,通过强化学习等极大地扩展了 Agent 的准确性和泛化能力。而且它被严格关在虚拟设备的安全沙箱里,既能自由试错,又不会碰到用户真实手机上的隐私数据。

智谱今天开源的是一整套可以“拿来就用”的能力,具体包括:

  • 训练好的核心模型;

  • Phone Use 能力框架与工具链;

  • 可直接跑通的 Demo,覆盖 50+ 高频中文 App;

  • 针对 Android 的适配层与示例工程;

  • 文档、快速上手指南

模型会以 MIT 开源许可证的形式开放,而所有代码会以 Apache-2.0 开源许可证的形式,托管在 GitHub 仓库中:github.com/zai-org/Open-AutoGLM。

为什么选择开源?

“从产品的角度,AutoGLM 已经可以支撑起很多真实场景;从工程的角度,AutoGLM 的积累足够写成一大摞技术报告。”

为什么选择在这个时间点把辛辛苦苦做的东西开源呢?看完官方自白,不得不说,智谱的格局还挺大。

首先,智谱认为“AI 手机”是大势所趋,但这不是一家公司就能完成的任务,更不应该掌握在极少数厂商手里

18 年前,苹果以智能手机奠定生态时代的范式;Siri 问世后,语音助手成了标配,但功能多停留在查天气、设闹钟,距离真正的智能仍相去甚远。

如今 AI 登场,变革已成共识。大模型不再只是给手机添点“智能”、做做答问,而是深入系统流程,像全能管家般跨 App 完成订票、点餐、取消续费等复杂操作,让手机真正迈向下一代计算入口。

也正因为这将重塑手机的能力与地位,一旦被少数厂商垄断,那么开发者的创新空间,要看平台愿不愿意开放接口;而用户日常生活中最重要的那台设备,也会越来越像“别人家的入口”。

智谱希望:“AutoGLM 的开源,能把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。”

他们把 AutoGLM 比喻成积木,表示可以拿来即用,成为系统的一部分,也可以拆开、重写、改造,变成新产品的元素。

其次,隐私是 AI 手机一个避不开的问题

可以想象,如果 AI 可以操控手机,像管家一样读取、操作、解决问题,虽然带来了便利,但也成为了知晓用户一切根底的隐形炸弹。

像个人微信、支付、聊天记录、照片相册、企业内部系统等等信息,必须掌握在用户自己手里。

智谱的解法是,通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。也就是说,这个 AI 能力免费发放,数据与隐私永远留在使用方这一侧。

第三,智谱希望“自己吃过的苦,别人别再吃了”

“把我们走过的路,变成大家在 Agent 爆发时代的起跑线。

AutoGLM 是一条很陡的路:我们啃过的技术难题、踩过的坑、重写过的框架,在很多场景里都可以复用,也值得被复用。”

他们想在未来看到这样情形:

  • 商业层面上,有团队因为 AutoGLM,做出真正意义上的 AI 原生手机;

  • 技术层面上,有研究者因为其中某个模块,写出一篇新论文、新算法;

  • 生态层面上,个人开发者可以利用 AutoGLM,做出自己的项目,在某个小众场景里真正跑起来。

AutoGLM&AI 手机行业前景

其实 AutoGLM 的这些智能手机操作能力,和最近热门的“豆包手机助手”也有不少异曲同工之处。我们 先来回顾一下 AutoGLM 是什么,再来聊聊 AI 手机行业前景。

全球首个手机智能体

2024 年 11 月,有件事在技术圈“小引热议”:AI 第一次自己发出了一个手机红包。

这不是脚本自动化,也不是调用某个内部 API,而是一个模型就能“看懂”界面内容,再一步一步完成点击流程。过去大家普遍认为这件事极其困难,还有人觉得不可能做到足够稳定。

而这背后的神奇新模型,正是 AutoGLM。

图源:智谱官方微信公众号

简单来说,它是智谱打造的、用于真实设备 GUI(图形用户界面)操作的基础智能体(foundation agents), 可以在真实或虚拟手机上执行长链路、多步骤的操作任务,初代于 2024 年 10 月发布。

AutoGLM 不仅能理解复杂 UI、规划复杂任务,还 具备错误恢复能力,这是 Agent 可以部署的前提。

而它之所以能实现 Phone-Use 等强大能力,主要归功于以下 三大核心技术的突破或创新应用

这种结构,让规划层更加灵活,解决“LLM 看得懂但点不准”的核心难题,大幅提升跨 APP、跨网页的泛化能力。

据智谱论文信息,中间接口(Intermediate Interface)设计,让 GPT-4o 视觉模式的网页任务执行成功率,从 18%(端到端方式) 提到了 36.4%,翻了倍。

提出 MobileRL、ComputerRL、AgentRL;验证强化学习规模扩展定律;在上千台虚拟设备中并行训练,能力显著增强。

第二,AutoGLM 的错误恢复能力,主要得益于自进化式的 Curriculum RL,模型通过这个 RL 框架可以自进化、自我纠错、自我变强。

通过奖励模型(RM)评估每一步是否朝正确方向推进,还可以通过 mutate 指令提高或降低任务难度。模型提前在上千个虚拟环境经过大量试错和恢复训练,让其能在真机上顺利跑通几十步流程。

第三,是大规模可控环境,包括 WebArena、AndroidLab,和云手机集群。

其中,WebArena 是真实网页环境,AndroidLab 是系统级 Android 环境,云手机集群则是上千台虚拟和真实设备并行训练。

大量的场景覆盖和经验,让模型具备了出色的泛化能力,这和谷歌的 AutoRT、WebVoyager、Gemini + Android App 等 Agent 技术高度类似。

——模型不是靠记规则,而是靠大量真实任务经验,学会在陌生场景中稳健执行操作。

值得一提的是,今年初 Manus 横空出世,让 AI Agent 迅速爆红,但 Manus 仅在 3 个月后便迅速撤出了中国市场。不久后,在今年 8 月,智谱发布 AutoGLM 2.0,也是全球首个手机智能体

但“一花独放不是春”

手机 Agent浪潮奔涌之时,智谱愿化作那块关键拼图,为未来的版图添上应有的一角:

“‘一花独放不是春’。Agent 的爆发,需要所有人一起参与。”

至于 “AI 手机”这个概念,本质上是把大模型深度塞进手机里,让其从单一工具升级成能感知、能决策、能跨 App 代办事务的随身智能体。

随着端侧 AI 的成熟,AI 手机的盘子正在快速扩张。

据 IDC 预计, 2026 年中国新一代 AI 手机出货量将达到 1.47 亿台,占总体市场的 53%

而赛迪顾问也发布了一个报告,判断 2027 年 AI 手机销量将跃升至 1.86 亿部,占比 56.1%,并强调“端侧主导、生成式创新与硬件突破”将继续推进行业高速增长。

这和之前的数据相比,已有大幅跃升:2023 年,中国 AI 手机销售量达到 1100 万部,占全球 AI 手机销售量 22%。2024 年,中国市场的新型 AI 智能手机出货量预计将超过 3500 万部,预估市场占有率为 12%

但目前 AI 手机效果如何呢?实际体验仍处在 “宣传大于实际”的早期阶段。

今年年初,21 财经曾对六款 AI 手机进行了测评,发现多数智能体在订咖啡、跨应用操作等场景下不是中途卡住,就是需要多轮确认;能稳定跑完流程的主要是荣耀 YOYO,但离“全自动化”仍有明显差距,跨 App 操作成功率依然受限于权限、界面变化等工程难题。

这也让行业将技术路线分成两派:依赖 App 授权的“意图框架”,和无需授权、靠读屏与模拟操作的“视觉路线(GUI Agent)”

简单来说,前者是走“官方通道”,App 得先点头授权,Agent 才能直接调用它的功能;后者则是“看着学”:智能体自己读屏幕、看按钮、模拟人手点来点去,就像站在你旁边学你怎么操作手机。

最近出圈的 “豆包手机”,就是尝试把 GUI Agent 做到系统级

豆包手机其实是字节跳动在做的一次低调试水,它由中兴代工,首批约 3 万台,主要供内部测试,没有对外销售。不过据传,因需求旺盛,目前在闲鱼被炒到近 8000 元。

据晚点报道,该手机背后的核心团队是字节负责 AI 硬件的 Ocean,他们由 PICO、OlaDance、锤子等多个硬件团队整合而来,目标是探索“大模型 + 超级 App + 硬件”的新形态。

字节原本想把豆包大模型提供给手机厂商作为系统级能力,但多数厂商担心失去大模型时代的主导权而拒绝合作,最终促使字节决定亲自下场做手机,并已启动第二代产品研发,预计在 2026 年底推出。

高盛在报告中指出,第三方 AI 想在手机里大规模落地并不容易:权限拿不到、数据摸不到、应用不一定愿意配合,导致智能体既难看清手机、也难稳定操作。

如今各大厂商普遍把“大模型”当作下一代手机的灵魂,更倾向与体量更小、可控性更强的大模型公司合作——比如 OPPO 选择阶跃星辰,而荣耀、三星等厂商则采用了智谱。

也正是在这场竞争中,智谱的角色愈发清晰:他们不是要取代手机厂,而是以开放、易集成的底层能力,成为 AI 手机生态里那块关键拼图,帮助更多厂商真正把“智能体”从概念变成用户愿意天天依赖的体验。

AI 手机的下一代入口之争刚刚开始,而决定最终格局的,将是哪些技术力量能够真正让智能体落地、跑稳、跑广。

传送门:

github.com/zai-org/Open-AutoGLM

参考链接:

https://arxiv.org/abs/2411.00820

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

相关内容

豆包AI手机,到底动了谁的...
一台能替用户“做主”的手机,踩了互联网大厂的“雷” 字节的豆包手...
2025-12-11 19:45:34
AI路边摊,下一个市民经济...
文 | 真故研究室 龚 正 编辑 | 脸 叔 人工智能总带有“...
2025-12-11 18:15:29
原创 ...
排版格式成了AI生成过不去的坎? 作者|王铁梅 编辑|古廿 五年前...
2025-12-11 17:46:29
巨头加速抢滩AI眼镜,何时...
深圳商报·读创客户端记者 陈小慧 近期,AI眼镜热度不断,国内外科...
2025-12-11 17:46:07
2025主流AI招聘系统推...
在当今竞争激烈的人才市场中,招聘效率已经成为企业保持竞争力的重要因...
2025-12-11 15:45:11
搅局者来了!智谱重磅开源A...
作者 | 木子、高允毅 2023 年 4 月,在很多人刚听说“大模...
2025-12-11 13:45:40

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...