OpenAI宣布开源SimpleQA新基准，专治大模型“胡言乱语”_linux资讯_linux办公网

OpenAI宣布开源SimpleQA新基准，专治大模型“胡言乱语”

创始人

2024-10-31 15:58:41

0次

10 月 31 日消息，当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。

OpenAI 表示，目标是使用 SimpleQA 创建一个具备以下特点的数据集：

高正确性：问题的参考答案由两名独立的 AI 训练师验证，以确保评分的公正性。

多样性：SimpleQA 涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性：与 TriviaQA（2017 年）或 NQ（2019 年）等早期基准相比，SimpleQA 更具挑战性，尤其针对如 GPT-4o 等前沿模型（例如，GPT-4o 的得分不足 40%）。

高效用户体验：SimpleQA 问题与答案简洁明了，使操作快速高效，并可通过 OpenAI API 等进行快速评分。此外，包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。

OpenAI 表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展，使模型更加可信并富有可靠性。

【来源：IT之家】

挑战性语言基准模型问题 OpenAI 事实答案 SimpleQA 准确性前沿

上一篇：开源证券：给予华熙生物买入评级

下一篇：中国电信星辰大模型获“可信开源大模型成熟度能力”认证

相关内容

聚焦AI+大模型、三维重建...

中新网北京5月31日电 (记者孙自法)记者5月31日从中国图像图...

2026-06-01 00:57:14

国泰海通：维持海外AI算力...

国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出，O...

2026-06-01 00:54:38

小米开源可控视频音效生成模...

IT之家 5 月 29 日消息，小米大模型应用团队今日发布 Con...

2026-06-01 00:41:13

全球首次单机降服万亿巨模D...

从数学、代码、复杂推理，到多轮工具调用，大模型的很多能力的提升都离...

2026-05-28 20:34:56

自变量开源 Wall-OS...

2026-05-28 16:19:28 作者：狼叫兽自变量机器...

2026-05-28 20:29:33

中国AI大模型Token调...

每经记者｜宋欣悦每经编辑｜高涵近日，《每日经济新闻》记者根...

2026-05-28 20:18:22

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯（记者魏蔚）9月20日，阿里云无影AI云电脑在2024云栖大会上展出，该版本基于最新的终端...

MWC2025荣耀多款AI技术... 人民财讯3月6日电，2025世界移动通信大会（MWC 2025）上，荣耀MagicBook Pro ...

原创 2... #春日生活好物种草季#近年来，笔记本电脑市场迎来技术爆发期，尤其在手机厂商跨界入局后，轻薄本在性能、...

摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息，摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...

摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息，作为国产GPU的杰出代表，摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...

微软 Azure AI 语音服... IT之家 8 月 23 日消息，微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...

谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息，谷歌于 8 月 27 日发布博文，宣布旗下 Gemini AI 支持...

青云QingCloud Kub... 日前，青云科技宣布开源 Thanos 的企业级发行版 Whizard，为企业带来真正高可用、可扩展、...

Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大的mac卸载工具，以帮助您完全卸载...

AMD锐龙AI 9 HX 37... 2024年6月3日，AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...