更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
创始人
2025-08-31 13:42:39
0

UItron团队 投稿

量子位 | 公众号 QbitAI

最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种!开源评测榜单和中文场景交互成绩全面提升。

比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲, 像人类一样点击、滑动、输入。其中,多模态智能体学习和交互的对象是多步执行的轨迹数据。

它适用于 手机/电脑上的复杂多步任务,尤其是在 中文APP场景下的真实交互方面具有优势。

来自浙江大学和美团的研究者们开源了多模态智能体UItron,具有先进的GUI内容感知、任务定位和推理规划能力,以及优秀的中文场景交互能力

UItron弥补了操作轨迹的稀缺性和智能体交互基建的可用性,提供了更好的基础能力来促进未来的智能体研究,图中展示了UItron和基准方法在十个主流评测榜单中的性能对比,显示了全面的性能水平提升。

方法与技术

多模态智能体依赖高质量的操作轨迹和可交互的虚拟环境,因此构建多模态智能体是一项有挑战的任务。UItron构建了系统性的数据工程来缓解操作轨迹的缺乏,搭建了可交互的虚拟环境支持手机/电脑的连接,提出了从简单离线强化学习到复杂在线强化学习的训练方法。

数据工程

研究者探索了系统的数据工程来改进UItron,包括感知数据、规划数据和蒸馏数据,如下图所示。此外,还组织了少量有利于多模态智能体训练的通用多模态数据,以及中文场景的高质量手动标注数据。具体地,在感知数据中,UItron将广泛来源的跨平台数据整理到统一的多轮对话模板中,有效的扩大了可用训练数据的规模。

同时,UItron整合了UI内容关联的多任务数据,包括OCR\VQA\Caption等,这些多任务数据有效的提供了基础的页面理解能力。在规划数据中,UItron系统地研究了一系列提高训练效果的数据工程策略,包括利用各种轨迹元素(如观察、 思想和行动),探索不同的推理格式,以及结合各种 反射机制(如回溯)。

交互基建

为了便于轨迹数据收集、在线评估和强化学习训练,UItron构建了一个连接移动和PC设备的交互环境基建,如下图所示。其意义来自以下三个方面。首先,移动端和PC端的交互环境提供了自动记录截图和坐标的功能,大大简化了手动标注轨迹数据的难度,尤其是提高了收集中文场景下操作轨迹的效率。

其次,为移动端和PC端的交互环境提供了一种实现方式,不仅实现了传统的英文环境下智能体交互环境(如OSWorld),还实现了中文环境中和国内App的交互环境。最后,通过连接手机/电脑,为在线强化学习提供了训练基础,模型在训练的过程中不断输出执行动作,然后访问交互环境获得执行后的新界面,从而交替循环下去直到任务完成。

训练范式

在训练过程中,UItron采用了一个 三阶段的训练策略(如下图所示),其中包括两个用于感知和规划任务的SFT阶段,以及一个带有课程强化学习框架的RL阶段。

在第一阶段,感知任务侧重于提高GUI场景中视觉语言模型的基本理解能力,如定位、问答、描述和OCR。

在第二阶段,规划任务集中于根据历史行动预测下一个行动,从而获得长步骤的推理和执行能力。

在最后的强化学习阶段,课程强化学习框架旨在通过对轨迹数据的群体相对策略优化算法来提高推理和探索能力,包括从简单的离线环境中进行步骤级的强化学习到复杂的在线环境中进行任务级的强化学习算法。

重点考虑国内月活前100的Apps

研究者进行了广泛的实验,涵盖场景包括GUI感知、定位、离线规划和在线规划。除了公开评测榜单之外,研究者还在自建中文APP场景下的离线环境和在线环境中进行充分的评测。以下是一些代表性的评测:

首先是在经典的开源榜单ScreenspotV2上, UItron实现了92.0的平均分数,优于现有的方法,反映了较强的GUI内容理解能力和任务定位能力。

在代表性的离线规划榜单Android-Control和GUI-Odyssey上,UItron实现了92.9的最高平均分,显著优于其他工作,展示了很强的任务规划和执行能力。

在开源环境中,在最受关注的评测榜单OSWorld上进行了对比,UItron取得了24.9的分数(15 Steps),在所有GUI Agent中性能最佳,弱于CUA方法,这是因为CUA方法只专注于优化compute-use场景。

特别的,研究者还强调了中文场景下和头部的APP进行交互的能力,重点考虑了国内月活前100的Apps。研究者们构建了一个离线环境和一个在线环境进行中文App能力的评测, 实验结果表明UItron取得了明显的性能优势,通过中文操作轨迹收集和中文交互环境基建改进了中文场景的智能体水平

UItron在多模态智能体的主流榜单中都取得了较好的效果,为领域提供了一个开源的更强的基础模型,期望推动未来技术的发展。同时,UItron强调了多模态智能体的可用性、可信度研究,尤其是面向真实应用诉求的中文App交互能力,发挥其应用价值和提升人机交互的效率。

(团队招收面向Agentic RL&Infra的科研实习生,可提供纯粹的科研环境,丰富的计算资源和前沿的技术探索,欢迎有相关经验者投递简历至zengzhixiong@meituan.com)

项目地址:https://github.com/UITron-hub/UItron

论文地址:https://github.com/UITron-hub/UItron/blob/main/report/uitron.pdf

相关内容

国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
黄仁勋:AI时代无需过度纠...
正值高校毕业季,AI技术的快速迭代让不少毕业生对就业前景倍感焦虑,...
2026-06-01 00:43:12
制造业大市如何拥抱AI?绍...
“此次圆桌研讨凝聚起产业发展共识,后续浙江将持续整合各方资源,汇聚...
2026-05-30 05:50:45
仁宝电脑与GMI Clou...
(全球TMT2026年5月28日讯)5月28日,仁宝电脑宣布,与美...
2026-05-28 21:09:59
快手业绩电话会:可灵AI、...
5月27日,快手科技(01024.HK)发布2026年第一季度业绩...
2026-05-28 20:52:04
5月28日天通股份涨10....
证券之星消息,5月28日天通股份(600330)涨10.00%,收...
2026-05-28 20:40:40

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...