新V观海外:全球AI智能体正进入黄金发展期
创始人
2024-10-15 18:58:58
0

陈沛/文 OpenAI近期接连发布了两项与AI智能体(Agent)有关的研究成果,分别是智能体的测试基准MLE-Bench和多智能体协调框架Swarm。

OpenAI的发布引发了很多关注和讨论,也将人们的视线又拉回到了能够自行分析、规划、决策、执行的智能体上。

实际上,整个AI应用领域今年在智能体赛道已经取得了很多进展,特别是模型的函数调用能力和智能体框架已经日趋成熟。

其中,模型的函数调用能力对于智能体自行分析问题并执行实际任务至关重要,能帮助智能体准确完成发送邮件、提交文档、比价下单等实际任务。

对此美国加州大学伯克利分校今年提出了BFCL测试排行榜,从多个维度评估模型的函数调用能力,包括Single Turn和Multi Turn、Non-Live和Live、AST总结和Exec总结、幻觉评估、模型成本和延迟等。

该排行榜的测试难度比较大,例如OpenAI的GPT-4系列模型、Anthropic的Claude-3.5系列模型、谷歌的Gemini-1.5系列模型的测试结果最高只有50多分。

不过,美国AI公司Writer不久前刚刚宣布其新发布的Palmyra X 004模型取得了78分的高分。Writer重点提升了新模型调用外部数据库和应用程序并采取行动的能力、获取SKU数据并与内置RAG自动集成的能力、代码生成与部署能力、结构化输出和执行能力(包括邮件、CRM、XML、日志等),从而显著增强了函数调用能力。

虽然这一初步结果还没有正式进入BFCL测试排行榜单,但是已经表明,要进一步提高函数调用能力不仅涉及模型本身,还要求对于实际应用开发和真实业务场景的理解有者更深刻的理解。

与此同时,智能体的各类自动化框架此前已经有了一些早期的实践,主要聚焦帮助模型理解环境、规划推理、执行任务的工具框架和协调流程。

例如在这次OpenAI的MLE-Bench中,为了评估智能体在机器学习工程任务上的能力,OpenAI便重点分析了由WecoAI开发的AIDE框架、在MLAgentBench项目中提出的MLAB框架以及由多家机构开发的OpenHands框架。

随着函数调用能力和智能体自动化框架逐步推进,今年来已经有各个细分领域的智能体公司竞相涌现。

投资过很多AI公司的老牌投资机构Felicis Ventures不久前专门盘点了各个垂直领域和职能方向的智能体,都已经出现了有代表性的公司。

例如客服领域的Sierra、销售领域的11x、营销领域的Jasper、招聘领域的Mercor、法务领域的Harvey、运营领域的Brevian、合规领域的Norm Ai、税务领域的taxgpt以及房产领域的reAlpha。

在实际中,相关领域和其它行业的AI智能体还有更多,正出现百花齐放的态势。在这波AI浪潮下,AI应用并不会局限于聊天机器人,而智能体可能才是更合适的产品形态和付费模式。

相关内容

【一周连连看】推动大模型从...
Hi,假期快乐。 本周,你将看到: 1、AI暑期营火了 2、硅谷,...
2026-06-21 20:19:17
中信证券:今年以来,AI驱...
【大河财立方消息】6月21日,中信证券分析师裘翔、张铭楷等发表研报...
2026-06-21 19:14:02
CBVI:2026 中国品...
CBVI:2026 中国品牌AI可见度指数 China Brand...
2026-06-21 19:12:58
AI 知识付费“出海”:一...
文 | wiwi AI 浪潮里,最先赚到钱的人,未必是最懂 AI...
2026-06-21 14:04:50
阿里合伙人调整:AI科学家...
阿里巴巴(HK09988,股价104.9港元,市值2.01万亿港元...
2026-06-21 12:06:30

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...