更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
创始人
2025-08-31 13:42:39
0

UItron团队 投稿

量子位 | 公众号 QbitAI

最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种!开源评测榜单和中文场景交互成绩全面提升。

比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲, 像人类一样点击、滑动、输入。其中,多模态智能体学习和交互的对象是多步执行的轨迹数据。

它适用于 手机/电脑上的复杂多步任务,尤其是在 中文APP场景下的真实交互方面具有优势。

来自浙江大学和美团的研究者们开源了多模态智能体UItron,具有先进的GUI内容感知、任务定位和推理规划能力,以及优秀的中文场景交互能力

UItron弥补了操作轨迹的稀缺性和智能体交互基建的可用性,提供了更好的基础能力来促进未来的智能体研究,图中展示了UItron和基准方法在十个主流评测榜单中的性能对比,显示了全面的性能水平提升。

方法与技术

多模态智能体依赖高质量的操作轨迹和可交互的虚拟环境,因此构建多模态智能体是一项有挑战的任务。UItron构建了系统性的数据工程来缓解操作轨迹的缺乏,搭建了可交互的虚拟环境支持手机/电脑的连接,提出了从简单离线强化学习到复杂在线强化学习的训练方法。

数据工程

研究者探索了系统的数据工程来改进UItron,包括感知数据、规划数据和蒸馏数据,如下图所示。此外,还组织了少量有利于多模态智能体训练的通用多模态数据,以及中文场景的高质量手动标注数据。具体地,在感知数据中,UItron将广泛来源的跨平台数据整理到统一的多轮对话模板中,有效的扩大了可用训练数据的规模。

同时,UItron整合了UI内容关联的多任务数据,包括OCR\VQA\Caption等,这些多任务数据有效的提供了基础的页面理解能力。在规划数据中,UItron系统地研究了一系列提高训练效果的数据工程策略,包括利用各种轨迹元素(如观察、 思想和行动),探索不同的推理格式,以及结合各种 反射机制(如回溯)。

交互基建

为了便于轨迹数据收集、在线评估和强化学习训练,UItron构建了一个连接移动和PC设备的交互环境基建,如下图所示。其意义来自以下三个方面。首先,移动端和PC端的交互环境提供了自动记录截图和坐标的功能,大大简化了手动标注轨迹数据的难度,尤其是提高了收集中文场景下操作轨迹的效率。

其次,为移动端和PC端的交互环境提供了一种实现方式,不仅实现了传统的英文环境下智能体交互环境(如OSWorld),还实现了中文环境中和国内App的交互环境。最后,通过连接手机/电脑,为在线强化学习提供了训练基础,模型在训练的过程中不断输出执行动作,然后访问交互环境获得执行后的新界面,从而交替循环下去直到任务完成。

训练范式

在训练过程中,UItron采用了一个 三阶段的训练策略(如下图所示),其中包括两个用于感知和规划任务的SFT阶段,以及一个带有课程强化学习框架的RL阶段。

在第一阶段,感知任务侧重于提高GUI场景中视觉语言模型的基本理解能力,如定位、问答、描述和OCR。

在第二阶段,规划任务集中于根据历史行动预测下一个行动,从而获得长步骤的推理和执行能力。

在最后的强化学习阶段,课程强化学习框架旨在通过对轨迹数据的群体相对策略优化算法来提高推理和探索能力,包括从简单的离线环境中进行步骤级的强化学习到复杂的在线环境中进行任务级的强化学习算法。

重点考虑国内月活前100的Apps

研究者进行了广泛的实验,涵盖场景包括GUI感知、定位、离线规划和在线规划。除了公开评测榜单之外,研究者还在自建中文APP场景下的离线环境和在线环境中进行充分的评测。以下是一些代表性的评测:

首先是在经典的开源榜单ScreenspotV2上, UItron实现了92.0的平均分数,优于现有的方法,反映了较强的GUI内容理解能力和任务定位能力。

在代表性的离线规划榜单Android-Control和GUI-Odyssey上,UItron实现了92.9的最高平均分,显著优于其他工作,展示了很强的任务规划和执行能力。

在开源环境中,在最受关注的评测榜单OSWorld上进行了对比,UItron取得了24.9的分数(15 Steps),在所有GUI Agent中性能最佳,弱于CUA方法,这是因为CUA方法只专注于优化compute-use场景。

特别的,研究者还强调了中文场景下和头部的APP进行交互的能力,重点考虑了国内月活前100的Apps。研究者们构建了一个离线环境和一个在线环境进行中文App能力的评测, 实验结果表明UItron取得了明显的性能优势,通过中文操作轨迹收集和中文交互环境基建改进了中文场景的智能体水平

UItron在多模态智能体的主流榜单中都取得了较好的效果,为领域提供了一个开源的更强的基础模型,期望推动未来技术的发展。同时,UItron强调了多模态智能体的可用性、可信度研究,尤其是面向真实应用诉求的中文App交互能力,发挥其应用价值和提升人机交互的效率。

(团队招收面向Agentic RL&Infra的科研实习生,可提供纯粹的科研环境,丰富的计算资源和前沿的技术探索,欢迎有相关经验者投递简历至zengzhixiong@meituan.com)

项目地址:https://github.com/UITron-hub/UItron

论文地址:https://github.com/UITron-hub/UItron/blob/main/report/uitron.pdf

相关内容

更懂国内APP的开源智能体...
UItron团队 投稿 量子位 | 公众号 QbitAI 最新开源...
2025-08-31 13:42:39
阿里巴巴开发了一款新的AI...
新榜讯 有报道称,阿里巴巴已开发出一款全新AI芯片,旨在填补英伟达...
2025-08-31 11:43:25
携AI科技全明星阵容亮相成...
8月29日,第二十八届成都国际汽车展览会盛大启幕。小鹏汽车以“AI...
2025-08-30 22:47:36
长春举办“AI+X”主题沙...
随着新一轮科技革命和产业变革深入发展,人工智能正从“辅助工具”跃升...
2025-08-30 22:46:06
路线图出炉!未来十年,AI...
华夏时报记者 石飞月 北京报道 为深入实施“人工智能+”行动,推...
2025-08-30 22:43:16
彩讯股份杨安培:以全栈AI...
8月28日,2025中国国际大数据产业博览会在贵州贵阳开幕。会议期...
2025-08-30 11:18:23

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...