阿里云开源智能体WebSailor登顶BrowseComp评测榜单_linux资讯_linux办公网

阿里云开源智能体WebSailor登顶BrowseComp评测榜单

创始人

2025-07-07 19:42:33

0次

今日阿里云宣布，通义实验室正式开源网络智能体WebSailor，该智能体凭借强大的推理与检索能力，在OpenAI发布的高难度智能体评测集BrowseComp上位列开源榜单首位。目前，其构建方案及部分数据集已在GitHub开源。

WebSailor专为复杂场景设计，能高效处理模糊问题，通过多步推理和交叉验证从海量信息中精准检索答案。通义实验室采用创新的post-training方法，显著提升了模型在网页推理任务中的表现。在BrowseComp评测中，WebSailor-32B和WebSailor-72B版本不仅领先于DeepSeek R1、Grok-3等开源模型，甚至超越部分闭源系统，仅次于OpenAI DeepResearch。

此外，WebSailor在普通任务数据集SimpleQA上也展现出优异性能，验证了其泛化能力。阿里云表示，该智能体的通用工作流及“高难度任务合成+高效RL优化”策略，可为开源社区解决复杂推理、学术发现等挑战提供借鉴。

阿里云推理评测模型 OpenAI SimpleQA 任务智能检索部分智能体高难度通义实验室

上一篇：特朗普威胁金砖国家加征关税，中方回应

下一篇：海能实业：没有生产AI眼镜产品

相关内容

聚焦AI+大模型、三维重建...

中新网北京5月31日电 (记者孙自法)记者5月31日从中国图像图...

2026-06-01 00:57:14

国泰海通：维持海外AI算力...

国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出，O...

2026-06-01 00:54:38

黄仁勋：AI时代无需过度纠...

正值高校毕业季，AI技术的快速迭代让不少毕业生对就业前景倍感焦虑，...

2026-06-01 00:43:12

小米开源可控视频音效生成模...

IT之家 5 月 29 日消息，小米大模型应用团队今日发布 Con...

2026-06-01 00:41:13

制造业大市如何拥抱AI？绍...

“此次圆桌研讨凝聚起产业发展共识，后续浙江将持续整合各方资源，汇聚...

2026-05-30 05:50:45

全球首次单机降服万亿巨模D...

从数学、代码、复杂推理，到多轮工具调用，大模型的很多能力的提升都离...

2026-05-28 20:34:56

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯（记者魏蔚）9月20日，阿里云无影AI云电脑在2024云栖大会上展出，该版本基于最新的终端...

MWC2025荣耀多款AI技术... 人民财讯3月6日电，2025世界移动通信大会（MWC 2025）上，荣耀MagicBook Pro ...

原创 2... #春日生活好物种草季#近年来，笔记本电脑市场迎来技术爆发期，尤其在手机厂商跨界入局后，轻薄本在性能、...

摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息，摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...

摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息，作为国产GPU的杰出代表，摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...

谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息，谷歌于 8 月 27 日发布博文，宣布旗下 Gemini AI 支持...

微软 Azure AI 语音服... IT之家 8 月 23 日消息，微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...

青云QingCloud Kub... 日前，青云科技宣布开源 Thanos 的企业级发行版 Whizard，为企业带来真正高可用、可扩展、...

AMD锐龙AI 9 HX 37... 2024年6月3日，AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...

Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大的mac卸载工具，以帮助您完全卸载...