OpenAI 宣布开源 SimpleQA 新基准,专治大模型“胡言乱语”
创始人
2024-10-31 08:31:15
0

IT之家 10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。

OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:

  • 高正确性:问题的参考答案由两名独立的 AI 训练师验证,以确保评分的公正性。
  • 多样性:SimpleQA 涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。
  • 前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准相比,SimpleQA 更具挑战性,尤其针对如 GPT-4o 等前沿模型(例如,GPT-4o 的得分不足 40%)。
  • 高效用户体验:SimpleQA 问题与答案简洁明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。

OpenAI 表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展,使模型更加可信并富有可靠性。

IT之家附有关地址:

  • 开源链接:https://github.com/openai/simple-evals/
  • 论文:https://cdn.openai.com/papers/simpleqa.pdf

相关内容

2025 年 Q1 财报 ...
【5 月 14 日下午消息,2025 年第一季度财报发布】报告期内...
2025-05-14 20:48:43
阿里开源全功能视频大模型,...
5月14日,阿里巴巴正式开源通义万相Wan2.1-VACE。据了解...
2025-05-14 20:47:29
手机AI技术难投入大,谁敢...
2024年被称为AI手机的元年,手机厂商纷纷发力相关功能应用。而普...
2025-05-14 20:18:18
当趣网络科技申请 AI 交...
金融界 2025 年 5 月 14 日消息,国家知识产权局信息显示...
2025-05-14 11:17:16
Manus免费开放注册:下...
今天,曾炒至10万的Manus免费开放注册了。 符合这两年AI资讯...
2025-05-14 11:17:14
布局AI生态 字节系大模型...
5月13日,字节跳动旗下火山引擎开启上海站的大模型巡展活动,一批新...
2025-05-14 08:46:47

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...