微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
创始人
2024-10-29 11:27:02
0

IT之家 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。

IT之家附上参考地址

相关内容

小微迫切需要AI
一个人、一台电脑、一套AI工具,能把仿真花卖往全球;几十人的外贸小...
2026-06-26 00:52:43
中国移动联合产业伙伴发布全...
6月25日,在2026上海世界移动通信大会期间,中国移动携手GSM...
2026-06-26 00:49:36
壮大长期资本耐心资本 护航...
中外专家热议资本如何护航人工智能发展。 贺觉渊/摄 证券时报记者 ...
2026-06-25 20:10:45
从拼算力到拼电力:AI重塑...
来源:证券时报 每一届夏季达沃斯,“能源”都是绕不开的话题。但在2...
2026-06-25 09:32:00
下一代数据库技术展现大幅减...
钛媒体App 6月25日消息,为破解人工智能(AI)智能体常见的“...
2026-06-25 09:29:24

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...