谷歌Gemini2.0大模型加持,AI“贾维斯”如何接管人类电脑?
创始人
2024-10-29 19:03:08
0

在科技飞速发展的今天,人工智能正以前所未有的速度改变着我们的生活和工作方式。其中,AI自主操控电脑成为了科技大厂们重点发力的战场,谷歌版“贾维斯”的即将问世,更是引发了广泛的关注。

Anthropic的Claude 3.5已经展示了自主看屏幕操作光标完成复杂任务的能力,而谷歌正在开发的Project Jarvis更是备受期待。这个由未来版Gemini 2.0驱动的项目,预计在12月亮相。它本质上是一个大动作模型,专门针对谷歌Chrome浏览器进行了优化。其操作原理与 Claude 3.5类似,通过截屏、解析屏幕内容,然后自动点击按钮或输入文本,从而帮助人们完成基于网页的日常任务,如收集研究信息、购物、预定航班等。不过,它在执行操作时中间会有几秒钟的思考时间,目前在终端设备中运行还不太现实,仍需在云上操作。

与此同时,微软团队也不甘示弱,悄悄放出了OmniParser。这是一个屏幕解析工具,可将截图转化为结构化数据,帮助AI精准理解用户意图。通过一系列的实验评估,如SeeAssign 任务、ScreenSpot评估、Mind2Web评估和AITW评估等,证明了OmniParser能够显著提高GPT-4V的性能,使其在处理各种任务时更加准确和高效。它不仅能准确识别用户界面中的可交互图标,还能理解屏幕截图中各种元素的语义,并将预期动作与屏幕上的相应区域关联起来。

OpenAI内部也有了AI智能体雏形,能够操控计算机完成在线订餐、自动查询解决编程难题等任务。包括苹果在内的科技巨头也在积极布局,预计在明年发布跨多个APP屏幕识别能力。

这些进展都表明,AI自主操控电脑的时代正在来临。然而,要实现像科幻作品中“贾维斯” 那样完美地接管人类电脑,还有很长的路要走。首先,模型需要具备强大的屏幕解析能力,这包括准确识别图标和理解语义等方面。其次,要解决在不同设备和平台上的兼容性问题,确保能够稳定运行。此外,还需要考虑数据安全和隐私保护等重要因素。

尽管面临诸多挑战,但科技的进步总是令人充满期待。谷歌Gemini 2.0加持的“贾维斯”以及其他厂商的相关研究成果,都为我们展示了未来人工智能的巨大潜力。也许在不久的将来,我们真的能够像钢铁侠一样,拥有一个智能的“贾维斯”来协助我们处理各种电脑任务,使我们的生活和工作变得更加便捷和高效。

相关内容

2025 年 Q1 财报 ...
【5 月 14 日下午消息,2025 年第一季度财报发布】报告期内...
2025-05-14 20:48:43
阿里开源全功能视频大模型,...
5月14日,阿里巴巴正式开源通义万相Wan2.1-VACE。据了解...
2025-05-14 20:47:29
佳都科技成立新公司,含多项...
企查查APP显示,近日,深圳市佳都智通科技有限公司成立,法定代表人...
2025-05-14 20:19:48
手机AI技术难投入大,谁敢...
2024年被称为AI手机的元年,手机厂商纷纷发力相关功能应用。而普...
2025-05-14 20:18:18
五千余岗位,AI工程师最热
原标题:2025杭州市青年就业促进大会系列活动启幕(引题) 五千余...
2025-05-14 20:18:00
当趣网络科技申请 AI 交...
金融界 2025 年 5 月 14 日消息,国家知识产权局信息显示...
2025-05-14 11:17:16

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...