超越GPT-4o!开源科研神器登场,4500万篇论文检索增强生成靠谱回答
创始人
2024-11-26 13:54:10
0

奇月 发自 凹非寺

量子位 | 公众号 QbitAI

只需几秒钟,开源模型检索4500篇论文,比GPT-4o还靠谱!

这就是由华盛顿大学和艾伦人工智能研究所(Ai2)打造的最新模型 OpenScholar

它还是 首个从论文到数据集、模型检查点都完全开源的科研助手模型。

在由20位专家进行的500次对比实验中, 72%的情况下他们都觉得OpenScholar的输出结果超越了人类。

而且OpenScholar还会附上参考文献列表,非常贴心:

它的功能也非常丰富。

你可以询问OpenScholar某个 研究课题的现状:“有没有人尝试过将检索增强型LM的检索库扩大到万亿级tokens?”

寻找 最新的数据集

针对某篇论文询问技术细节

或者询问 算法的细节,比如机器人算法/ReLU算法等等:

有多位网友使用过后表示:做复杂课题也能快速搜集有用的资料,真是科研神器!

仅调用8B模型

一句话总结:它存储了 4500万篇论文的大规模数据,并使用自定义训练的 检索器、重排器和8B参数 语言模型进行检索,并根据最新的科学文献内容回答问题。

具体来说,OpenScholar-8B(OS-8B)系统包括以下组件:

1.开放学者数据存储:包含超过4500万篇论文、以及对应的约2.5亿段落嵌入。底层论文数据截止到2024年10月。

3.专业8B语言模型:这是一个针对科学文献综合任务优化的8B参数语言模型,在性能与计算效率之间取得了很好平衡。团队基于来自迭代自我反馈生成管道生成的合成数据训练并微调了Llama 3.1 8B。

4.迭代自我反馈生成:在推理过程中,团队使用迭代自我反馈来通过自然语言反馈精炼模型输出。每次迭代都额外检索更多论文,使模型能够提高回答质量并缩小引用差距。

为了评估 OpenScholar,团队还开发了 ScholarQABench——一个专门用于评估从多篇论文中综合信息以解决开放式科学问题的基准。

ScholarQABench包含七个数据集:三个专注于单篇论文评估的现有数据集,以及四个需要跨多篇论文综合的新收集数据集。

最终在实验自动评估以及人工评估中,OpenScholar模型的表现优于很多主流模型,包括GPT-4o和Llama 3.1 70B。

搜索的可靠性方面,OpenScholar更是远超GPT-4o。

GPT-4o在90%以上的情况下都引用了不存在的论文,而OpenScholar的结果都是来自确定来源。

以及在信息覆盖率、实用性、相关性等多个维度方面,OpenScholar撰写的结果都优于GPT-4o。

运营成本便宜100倍

对比基于OpenAI的GPT-4o和Anthropic的Claude的科研模型可以发现,它们虽然性能很强,但价格昂贵、而且工作原理也不透明。

而OpenScholar正是为了挑战这些现有的大模型玩家入局的!

据开发人员称,OpenScholar是 首个完全开源的科学助手语言模型——从数据到训练食谱再到模型检查点,全部公开!

研究人员可以非常清除地看到模型的训练过程和数据集的内容等,也可以根据自己的工作进行调整。

这样一来, 规模较小、架构简单的OpenScholar-8B的运营成本比基于GPT-4o构建的同期系统PaperQA2便宜 100倍

对于小型机构、资金不足的实验室以及发展中国家的研究人员来说,这样的运营成本非常有吸引力。

不过,目前OpenScholar也有很多 局限,比如:

1.OpenScholar可能会引用 不那么具有代表性的论文。

例如,在描述特定方法时,它可能未能引用提出该方法的原始论文,而是引用了提及该方法的另一篇论文。

2.OpenScholar有时可能会 生成没有参考文献支持的响应,或者检索到该领域不是最相关或最新的论文。

例如:当被问及机器人学中的大型基础模型时,此响应引用了一篇具有3.07亿参数模型的论文,而截至2024年11月,机器人学中当前最大的基础模型(RT-2)具有550亿参数。

3.OpenScholar可能仍然可能生成 带有幻觉的结果,而不是依赖于它检索到的真实论文。

4.许多科学论文都设置了 付费墙

目前出于对版权的尊重,OpenScholar数据存储库仅包含公开的论文。这可能会降低模型在较封闭领域回答问题的能力。

团队表示,未来他们会纳入更多论文、升级检索增强算法,也会对各个领域的经典研究问题和论文进行深入整合,增强OpenScholar的专业程度。

相关内容

原创 ...
海内外大厂大模型研发正在进入新升级周期,为了加速补齐技术短板,腾讯...
2025-05-11 20:16:52
OpenAI在企业AI市场...
【环球网科技综合报道】5月11日消息,金融数据公司Ramp发布的最...
2025-05-11 15:50:22
大学生为何吐槽“论文AI检...
眼下的AI率检测乱象表明这一技术仍处于起步阶段,其标准和方法尚不成...
2025-05-11 15:50:10
原创 ...
近期,有几件大事引起人们热议。 第一件事,台湾地区媒体最近通过对台...
2025-05-11 06:17:55
干翻深度思考!2025年首...
新智元报道 编辑:编辑部 XZH 【新智元导读】刚刚,夸克AI超...
2025-05-10 17:18:20
热思考、冷静干!AI+零售...
烟火气是“一种生活感受”,从零售的角度它是由人、货、场共同构成,可...
2025-05-10 17:17:23

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...