谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力
创始人
2025-04-26 15:46:35
0

IT之家 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

IT之家援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

相关内容

海泰新光涨8.63%,开源...
今日海泰新光(688677)涨8.63%,收盘报82.23元。 2...
2026-04-18 11:13:26
Google正式推出面向m...
谷歌近日正式发布了面向macOS平台的Gemini原生应用程序,用...
2026-04-18 11:13:16
豫园股份涨7.08%,开源...
今日豫园股份(600655)涨7.08%,收盘报4.99元。 20...
2026-04-13 21:47:59
MiniMax M2.7正...
钛媒体App 4月13日消息,MiniMax M2.7在全球正式开...
2026-04-13 21:44:24
MiniMax M2.7开...
4月13日消息,MiniMax M2.7 于今日正式开源。该公司宣...
2026-04-13 13:49:10
10000个爱因斯坦诞生?...
AI大神Karpathy的「autoresearch」爆火之后,物...
2026-04-13 13:45:14

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...