新V观海外:全球AI智能体正进入黄金发展期
创始人
2024-10-15 18:58:58
0

陈沛/文 OpenAI近期接连发布了两项与AI智能体(Agent)有关的研究成果,分别是智能体的测试基准MLE-Bench和多智能体协调框架Swarm。

OpenAI的发布引发了很多关注和讨论,也将人们的视线又拉回到了能够自行分析、规划、决策、执行的智能体上。

实际上,整个AI应用领域今年在智能体赛道已经取得了很多进展,特别是模型的函数调用能力和智能体框架已经日趋成熟。

其中,模型的函数调用能力对于智能体自行分析问题并执行实际任务至关重要,能帮助智能体准确完成发送邮件、提交文档、比价下单等实际任务。

对此美国加州大学伯克利分校今年提出了BFCL测试排行榜,从多个维度评估模型的函数调用能力,包括Single Turn和Multi Turn、Non-Live和Live、AST总结和Exec总结、幻觉评估、模型成本和延迟等。

该排行榜的测试难度比较大,例如OpenAI的GPT-4系列模型、Anthropic的Claude-3.5系列模型、谷歌的Gemini-1.5系列模型的测试结果最高只有50多分。

不过,美国AI公司Writer不久前刚刚宣布其新发布的Palmyra X 004模型取得了78分的高分。Writer重点提升了新模型调用外部数据库和应用程序并采取行动的能力、获取SKU数据并与内置RAG自动集成的能力、代码生成与部署能力、结构化输出和执行能力(包括邮件、CRM、XML、日志等),从而显著增强了函数调用能力。

虽然这一初步结果还没有正式进入BFCL测试排行榜单,但是已经表明,要进一步提高函数调用能力不仅涉及模型本身,还要求对于实际应用开发和真实业务场景的理解有者更深刻的理解。

与此同时,智能体的各类自动化框架此前已经有了一些早期的实践,主要聚焦帮助模型理解环境、规划推理、执行任务的工具框架和协调流程。

例如在这次OpenAI的MLE-Bench中,为了评估智能体在机器学习工程任务上的能力,OpenAI便重点分析了由WecoAI开发的AIDE框架、在MLAgentBench项目中提出的MLAB框架以及由多家机构开发的OpenHands框架。

随着函数调用能力和智能体自动化框架逐步推进,今年来已经有各个细分领域的智能体公司竞相涌现。

投资过很多AI公司的老牌投资机构Felicis Ventures不久前专门盘点了各个垂直领域和职能方向的智能体,都已经出现了有代表性的公司。

例如客服领域的Sierra、销售领域的11x、营销领域的Jasper、招聘领域的Mercor、法务领域的Harvey、运营领域的Brevian、合规领域的Norm Ai、税务领域的taxgpt以及房产领域的reAlpha。

在实际中,相关领域和其它行业的AI智能体还有更多,正出现百花齐放的态势。在这波AI浪潮下,AI应用并不会局限于聊天机器人,而智能体可能才是更合适的产品形态和付费模式。

相关内容

中国AI产业创新步伐加快
来源:科技日报 新春临近,AI产业竞争日渐升温。今年以来,百度、阿...
2026-02-06 11:18:35
老黄完成物理AI新落点,让...
作者:毛烁 2月3日,在达索年度盛会3DEXPERIENCE Wo...
2026-02-06 06:19:37
AI“接管”红绿灯,平均车...
上海首创治堵大模型 作者/ IT时报 潘少颖 编辑/ 潘少颖孙妍 ...
2026-02-05 21:19:30
海淀AI人群图鉴|甲子光年
AI在海淀已经成为了一种“默认的存在”。 作者|王博 立春之际的北...
2026-02-05 20:17:22
陈天桥:模仿人类不是AI的...
在人工智能技术迈入深水区的2026年春节前夕,陈天桥首次向旗下Mi...
2026-02-05 18:53:18
论文配图一键封神!北大谷歌...
新智元报道 编辑:倾倾 【新智元导读】科研人的深夜噩梦,终于有人...
2026-02-05 18:52:25

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...