OpenAI宣布开源SimpleQA新基准,专治大模型“胡言乱语”
创始人
2024-10-31 15:58:41
0

10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。

OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:

高正确性:问题的参考答案由两名独立的 AI 训练师验证,以确保评分的公正性。

多样性:SimpleQA 涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准相比,SimpleQA 更具挑战性,尤其针对如 GPT-4o 等前沿模型(例如,GPT-4o 的得分不足 40%)。

高效用户体验:SimpleQA 问题与答案简洁明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。

OpenAI 表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展,使模型更加可信并富有可靠性。

【来源:IT之家】

相关内容

别跟LLM太交心!斯坦福新...
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 小心!AI的...
2025-07-13 15:43:57
原创 ...
文/杨剑勇 英伟达再次创出世界纪录,市值突破4万亿美元大关,换算人...
2025-07-13 15:43:18
因为微软,OpenAI收购...
OpenAI收购AI编程助手Windsurf的谈判因微软知识产权担...
2025-07-12 13:14:23
看了AI生成的ASMR吃播...
前段时间,一条用 AI 生成的切水果 ASMR 短视频,在洋抖上爆...
2025-07-12 13:13:44
上海AI实验室团队:如何优...
这项由上海AI实验室和复?dan大学联合开展的突破性研究发表于20...
2025-07-12 13:13:26
月之暗面Kimi K2发布...
月之暗面今天宣布,正式发布Kimi K2模型,并同步开源。Kimi...
2025-07-12 06:12:21

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...