搅局者来了！智谱重磅开源AutoGLM，让“豆包手机”人人可造！官方：AI手机不该掌握在少数厂商手中_linux资讯

搅局者来了！智谱重磅开源AutoGLM，让“豆包手机”人人可造！官方：AI手机不该掌握在少数厂商手中

创始人

2025-12-11 13:45:40

0次

作者｜木子、高允毅

2023 年 4 月，在很多人刚听说“大模型”这个词的时候，智谱团队开始研究一个听上去不太现实的目标：

让 AI 真正学会“使用手机”，也就是像真人一样，对智能手机等设备具有使用能力。

32 个月后，智谱把阶段性重要成果、核心 AI Agent 模型：AutoGLM给完整开源了出来，并放话：“每台手机，都可以成为 AI 手机。”

AutoGLM 拥有 Phone-Use（手机操作）能力，包括点击、滑动、输入、截图理解、流程恢复、噪声处理……既能稳定完成外卖点单，也能完成机票预订等长达数十步的复杂操作流程。

目前，AutoGLM 已支持上百个主流 APP，包括以下这些：

另外，AutoGLM 还能同时在上千台云端虚拟手机里“练功”，通过强化学习等极大地扩展了 Agent 的准确性和泛化能力。而且它被严格关在虚拟设备的安全沙箱里，既能自由试错，又不会碰到用户真实手机上的隐私数据。

智谱今天开源的是一整套可以“拿来就用”的能力，具体包括：

训练好的核心模型；
Phone Use 能力框架与工具链；
可直接跑通的 Demo，覆盖 50+ 高频中文 App；
针对 Android 的适配层与示例工程；
文档、快速上手指南

模型会以 MIT 开源许可证的形式开放，而所有代码会以 Apache-2.0 开源许可证的形式，托管在 GitHub 仓库中：github.com/zai-org/Open-AutoGLM。

为什么选择开源？

“从产品的角度，AutoGLM 已经可以支撑起很多真实场景；从工程的角度，AutoGLM 的积累足够写成一大摞技术报告。”

为什么选择在这个时间点把辛辛苦苦做的东西开源呢？看完官方自白，不得不说，智谱的格局还挺大。

首先，智谱认为“AI 手机”是大势所趋，但这不是一家公司就能完成的任务，更不应该掌握在极少数厂商手里。

18 年前，苹果以智能手机奠定生态时代的范式；Siri 问世后，语音助手成了标配，但功能多停留在查天气、设闹钟，距离真正的智能仍相去甚远。

如今 AI 登场，变革已成共识。大模型不再只是给手机添点“智能”、做做答问，而是深入系统流程，像全能管家般跨 App 完成订票、点餐、取消续费等复杂操作，让手机真正迈向下一代计算入口。

也正因为这将重塑手机的能力与地位，一旦被少数厂商垄断，那么开发者的创新空间，要看平台愿不愿意开放接口；而用户日常生活中最重要的那台设备，也会越来越像“别人家的入口”。

智谱希望：“AutoGLM 的开源，能把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。”

他们把 AutoGLM 比喻成积木，表示可以拿来即用，成为系统的一部分，也可以拆开、重写、改造，变成新产品的元素。

其次，隐私是 AI 手机一个避不开的问题。

可以想象，如果 AI 可以操控手机，像管家一样读取、操作、解决问题，虽然带来了便利，但也成为了知晓用户一切根底的隐形炸弹。

像个人微信、支付、聊天记录、照片相册、企业内部系统等等信息，必须掌握在用户自己手里。

智谱的解法是，通过开源和私有化部署，企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。也就是说，这个 AI 能力免费发放，数据与隐私永远留在使用方这一侧。

第三，智谱希望“自己吃过的苦，别人别再吃了”。

“把我们走过的路，变成大家在 Agent 爆发时代的起跑线。

AutoGLM 是一条很陡的路：我们啃过的技术难题、踩过的坑、重写过的框架，在很多场景里都可以复用，也值得被复用。”

他们想在未来看到这样情形：

商业层面上，有团队因为 AutoGLM，做出真正意义上的 AI 原生手机；
技术层面上，有研究者因为其中某个模块，写出一篇新论文、新算法；
生态层面上，个人开发者可以利用 AutoGLM，做出自己的项目，在某个小众场景里真正跑起来。

AutoGLM&AI 手机行业前景

其实 AutoGLM 的这些智能手机操作能力，和最近热门的“豆包手机助手”也有不少异曲同工之处。我们 先来回顾一下 AutoGLM 是什么，再来聊聊 AI 手机行业前景。

全球首个手机智能体

2024 年 11 月，有件事在技术圈“小引热议”：AI 第一次自己发出了一个手机红包。

这不是脚本自动化，也不是调用某个内部 API，而是一个模型就能“看懂”界面内容，再一步一步完成点击流程。过去大家普遍认为这件事极其困难，还有人觉得不可能做到足够稳定。

而这背后的神奇新模型，正是 AutoGLM。

图源：智谱官方微信公众号

简单来说，它是智谱打造的、用于真实设备 GUI（图形用户界面）操作的基础智能体（foundation agents）, 可以在真实或虚拟手机上执行长链路、多步骤的操作任务，初代于 2024 年 10 月发布。

AutoGLM 不仅能理解复杂 UI、规划复杂任务，还 具备错误恢复能力，这是 Agent 可以部署的前提。

而它之所以能实现 Phone-Use 等强大能力，主要归功于以下 三大核心技术的突破或创新应用。

这种结构，让规划层更加灵活，解决“LLM 看得懂但点不准”的核心难题，大幅提升跨 APP、跨网页的泛化能力。

据智谱论文信息，中间接口（Intermediate Interface）设计，让 GPT-4o 视觉模式的网页任务执行成功率，从 18%（端到端方式）提到了 36.4%，翻了倍。

提出 MobileRL、ComputerRL、AgentRL；验证强化学习规模扩展定律；在上千台虚拟设备中并行训练，能力显著增强。

第二，AutoGLM 的错误恢复能力，主要得益于自进化式的 Curriculum RL，模型通过这个 RL 框架可以自进化、自我纠错、自我变强。

通过奖励模型（RM）评估每一步是否朝正确方向推进，还可以通过 mutate 指令提高或降低任务难度。模型提前在上千个虚拟环境经过大量试错和恢复训练，让其能在真机上顺利跑通几十步流程。

第三，是大规模可控环境，包括 WebArena、AndroidLab，和云手机集群。

其中，WebArena 是真实网页环境，AndroidLab 是系统级 Android 环境，云手机集群则是上千台虚拟和真实设备并行训练。

大量的场景覆盖和经验，让模型具备了出色的泛化能力，这和谷歌的 AutoRT、WebVoyager、Gemini + Android App 等 Agent 技术高度类似。

——模型不是靠记规则，而是靠大量真实任务经验，学会在陌生场景中稳健执行操作。

值得一提的是，今年初 Manus 横空出世，让 AI Agent 迅速爆红，但 Manus 仅在 3 个月后便迅速撤出了中国市场。不久后，在今年 8 月，智谱发布 AutoGLM 2.0，也是全球首个手机智能体。

但“一花独放不是春”

在手机 Agent浪潮奔涌之时，智谱愿化作那块关键拼图，为未来的版图添上应有的一角：

“‘一花独放不是春’。Agent 的爆发，需要所有人一起参与。”

至于 “AI 手机”这个概念，本质上是把大模型深度塞进手机里，让其从单一工具升级成能感知、能决策、能跨 App 代办事务的随身智能体。

随着端侧 AI 的成熟，AI 手机的盘子正在快速扩张。

据 IDC 预计， 2026 年中国新一代 AI 手机出货量将达到 1.47 亿台，占总体市场的 53%。

而赛迪顾问也发布了一个报告，判断 2027 年 AI 手机销量将跃升至 1.86 亿部，占比 56.1%，并强调“端侧主导、生成式创新与硬件突破”将继续推进行业高速增长。

这和之前的数据相比，已有大幅跃升：2023 年，中国 AI 手机销售量达到 1100 万部，占全球 AI 手机销售量 22%。2024 年，中国市场的新型 AI 智能手机出货量预计将超过 3500 万部，预估市场占有率为 12%。

但目前 AI 手机效果如何呢？实际体验仍处在 “宣传大于实际”的早期阶段。

今年年初，21 财经曾对六款 AI 手机进行了测评，发现多数智能体在订咖啡、跨应用操作等场景下不是中途卡住，就是需要多轮确认；能稳定跑完流程的主要是荣耀 YOYO，但离“全自动化”仍有明显差距，跨 App 操作成功率依然受限于权限、界面变化等工程难题。

这也让行业将技术路线分成两派：依赖 App 授权的“意图框架”，和无需授权、靠读屏与模拟操作的“视觉路线（GUI Agent）”。

简单来说，前者是走“官方通道”，App 得先点头授权，Agent 才能直接调用它的功能；后者则是“看着学”：智能体自己读屏幕、看按钮、模拟人手点来点去，就像站在你旁边学你怎么操作手机。

最近出圈的 “豆包手机”，就是尝试把 GUI Agent 做到系统级。

豆包手机其实是字节跳动在做的一次低调试水，它由中兴代工，首批约 3 万台，主要供内部测试，没有对外销售。不过据传，因需求旺盛，目前在闲鱼被炒到近 8000 元。

据晚点报道，该手机背后的核心团队是字节负责 AI 硬件的 Ocean，他们由 PICO、OlaDance、锤子等多个硬件团队整合而来，目标是探索“大模型 + 超级 App + 硬件”的新形态。

字节原本想把豆包大模型提供给手机厂商作为系统级能力，但多数厂商担心失去大模型时代的主导权而拒绝合作，最终促使字节决定亲自下场做手机，并已启动第二代产品研发，预计在 2026 年底推出。

高盛在报告中指出，第三方 AI 想在手机里大规模落地并不容易：权限拿不到、数据摸不到、应用不一定愿意配合，导致智能体既难看清手机、也难稳定操作。

如今各大厂商普遍把“大模型”当作下一代手机的灵魂，更倾向与体量更小、可控性更强的大模型公司合作——比如 OPPO 选择阶跃星辰，而荣耀、三星等厂商则采用了智谱。

也正是在这场竞争中，智谱的角色愈发清晰：他们不是要取代手机厂，而是以开放、易集成的底层能力，成为 AI 手机生态里那块关键拼图，帮助更多厂商真正把“智能体”从概念变成用户愿意天天依赖的体验。

AI 手机的下一代入口之争刚刚开始，而决定最终格局的，将是哪些技术力量能够真正让智能体落地、跑稳、跑广。

传送门：

github.com/zai-org/Open-AutoGLM

参考链接：

https://arxiv.org/abs/2411.00820

声明：本文为 AI 前线整理，不代表平台观点，未经许可禁止转载。

Agent 能力 Phone-Use 手机操作模型人人重磅 AutoGLM 智谱智能体

上一篇：从冷门歌手到热门金曲，AI音乐成了？

下一篇：AI赋能影视的三重影响

搅局者来了！智谱重磅开源AutoGLM，让“豆包手机”人人可造！官方：AI手机不该掌握在少数厂商手中

相关内容

热门资讯