超越GPT-4o!开源科研神器登场,4500万篇论文检索增强生成靠谱回答
创始人
2024-11-26 13:54:10
0

奇月 发自 凹非寺

量子位 | 公众号 QbitAI

只需几秒钟,开源模型检索4500篇论文,比GPT-4o还靠谱!

这就是由华盛顿大学和艾伦人工智能研究所(Ai2)打造的最新模型 OpenScholar

它还是 首个从论文到数据集、模型检查点都完全开源的科研助手模型。

在由20位专家进行的500次对比实验中, 72%的情况下他们都觉得OpenScholar的输出结果超越了人类。

而且OpenScholar还会附上参考文献列表,非常贴心:

它的功能也非常丰富。

你可以询问OpenScholar某个 研究课题的现状:“有没有人尝试过将检索增强型LM的检索库扩大到万亿级tokens?”

寻找 最新的数据集

针对某篇论文询问技术细节

或者询问 算法的细节,比如机器人算法/ReLU算法等等:

有多位网友使用过后表示:做复杂课题也能快速搜集有用的资料,真是科研神器!

仅调用8B模型

一句话总结:它存储了 4500万篇论文的大规模数据,并使用自定义训练的 检索器、重排器和8B参数 语言模型进行检索,并根据最新的科学文献内容回答问题。

具体来说,OpenScholar-8B(OS-8B)系统包括以下组件:

1.开放学者数据存储:包含超过4500万篇论文、以及对应的约2.5亿段落嵌入。底层论文数据截止到2024年10月。

3.专业8B语言模型:这是一个针对科学文献综合任务优化的8B参数语言模型,在性能与计算效率之间取得了很好平衡。团队基于来自迭代自我反馈生成管道生成的合成数据训练并微调了Llama 3.1 8B。

4.迭代自我反馈生成:在推理过程中,团队使用迭代自我反馈来通过自然语言反馈精炼模型输出。每次迭代都额外检索更多论文,使模型能够提高回答质量并缩小引用差距。

为了评估 OpenScholar,团队还开发了 ScholarQABench——一个专门用于评估从多篇论文中综合信息以解决开放式科学问题的基准。

ScholarQABench包含七个数据集:三个专注于单篇论文评估的现有数据集,以及四个需要跨多篇论文综合的新收集数据集。

最终在实验自动评估以及人工评估中,OpenScholar模型的表现优于很多主流模型,包括GPT-4o和Llama 3.1 70B。

搜索的可靠性方面,OpenScholar更是远超GPT-4o。

GPT-4o在90%以上的情况下都引用了不存在的论文,而OpenScholar的结果都是来自确定来源。

以及在信息覆盖率、实用性、相关性等多个维度方面,OpenScholar撰写的结果都优于GPT-4o。

运营成本便宜100倍

对比基于OpenAI的GPT-4o和Anthropic的Claude的科研模型可以发现,它们虽然性能很强,但价格昂贵、而且工作原理也不透明。

而OpenScholar正是为了挑战这些现有的大模型玩家入局的!

据开发人员称,OpenScholar是 首个完全开源的科学助手语言模型——从数据到训练食谱再到模型检查点,全部公开!

研究人员可以非常清除地看到模型的训练过程和数据集的内容等,也可以根据自己的工作进行调整。

这样一来, 规模较小、架构简单的OpenScholar-8B的运营成本比基于GPT-4o构建的同期系统PaperQA2便宜 100倍

对于小型机构、资金不足的实验室以及发展中国家的研究人员来说,这样的运营成本非常有吸引力。

不过,目前OpenScholar也有很多 局限,比如:

1.OpenScholar可能会引用 不那么具有代表性的论文。

例如,在描述特定方法时,它可能未能引用提出该方法的原始论文,而是引用了提及该方法的另一篇论文。

2.OpenScholar有时可能会 生成没有参考文献支持的响应,或者检索到该领域不是最相关或最新的论文。

例如:当被问及机器人学中的大型基础模型时,此响应引用了一篇具有3.07亿参数模型的论文,而截至2024年11月,机器人学中当前最大的基础模型(RT-2)具有550亿参数。

3.OpenScholar可能仍然可能生成 带有幻觉的结果,而不是依赖于它检索到的真实论文。

4.许多科学论文都设置了 付费墙

目前出于对版权的尊重,OpenScholar数据存储库仅包含公开的论文。这可能会降低模型在较封闭领域回答问题的能力。

团队表示,未来他们会纳入更多论文、升级检索增强算法,也会对各个领域的经典研究问题和论文进行深入整合,增强OpenScholar的专业程度。

相关内容

抽样14万武汉人体检报告:...
过早一碗热干面,夜宵虾子嗦不停;忙时奶茶当水炫,外卖盒子堆成山。地...
2025-07-03 22:12:23
平安好医生入选首批“开源大...
7月3日,由全球数字经济大会组委会主办,中国信息通信研究院(以下简...
2025-07-03 21:41:09
计算架构,行业AI竞争的下...
2025-07-03 16:25:26 作者:狼叫兽 当Dee...
2025-07-03 17:42:01
阿里与荣耀进一步深化AI生...
央广网北京7月3日消息(记者 冀文超)7月2日,荣耀全新年度折叠旗...
2025-07-03 17:12:53
百度的AI为什么没人用,中...
牛文文 创业黑马集团董事长&创始人 AI, 第一个颠覆就是搜索。 ...
2025-07-03 17:12:38
画到哪,动到哪!字节跳动发...
Angtian Wang 是字节跳动的研究员,研究方向包括视频生成...
2025-07-03 13:13:17

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...