首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁
创始人
2025-03-12 16:14:45
0

新智元报道

编辑:桃子

【新智元导读】Sakana AI刚刚官宣,第二代「AI科学家」独立完成论文,通过了ICLR 2025 Workshop的同行评审。这是首次完全由AI端到端生成的科学论文,获得了学术高度认可。

首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审!

刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。

从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。

研究人员向2025 ICLR Workshop,一共提交了3篇AI生成的论文,全部进入双盲评审。

显然,审稿人完全不知道,他们评审的是AI生成的作品,并且按照评审人类科学家论文的标准,进行严格评判。

3篇论文中,只有一篇Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization,平均获6.25的高分(6,7,6,6),远高于许多人类作者的论文。

论文地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment/blob/master/compositional-regularization/annotated_paper.pdf

另外两篇全部败北。

Sakana AI特别强调,这是首次通过「与人类科学家相同标准」的同行评审论文。

AI科研历史性时刻来了!

AI闯入科研殿堂,全程无人干预

要知道,ICLR与NeurIPS、ICML并称机器学习和人工智能研究领域三大顶级会议。

如前所述,Sakana AI在由2025 ICLR主办的Workshop——ICBINB上,展开了这项实验。

这个研讨会涉及的议题非常广泛,挑战者(包括AI科学家)需要处理多样化研究课题,去解决深度学习的实际局限性。

https://sites.google.com/view/icbinb-2025

那么,AI论文是如何参与评审过程的呢?

评审过程

通过与ICLR Workshop商定,研究团队提交了3篇AI生成的论文,参与同行评审。

审稿人并未明确被告知,他们所评审的论文是由AI生成的。在ICLR Workshop「评审指南」中,明确规定了这一点。

关键在于,Sakana AI提交的AI生成论文,完全由「AI端到端」生成,未经任何人类修改。

AI Scientist-v2不仅提出了科学假设,设计了测试假设的实验,还编写并优化了实验代码,运行实验,分析数据,将数据可视化为图表。

并且,它还撰写了整篇科学稿件的每一个字,从标题到最后的参考文献,包括图表放置和所有格式。

全程没有人类参与,为了监督研究,Sakana AI研究员仅是为AI提供了研究的广泛主题,并提交了3篇他们自认为比较好的论文。

在提交的3篇论文中,其中两篇未达到接受标准。

另外一篇论文的平均得分为6.25,在所有提交中排名约45%。这一分数高于研讨会中许多被接受的人类撰写论文,高于平均接受门槛。具体评分为:

  • 评分:6:略高于接受门槛

  • 评分:7:好论文,接受

  • 评分:6:略高于接受门槛

  • 评分:6:略高于接受门槛

对AI生成论文的分析

除了同行评审过程,作为人类AI研究者,Sakana AI还对所有3篇AI生成论文进行了自己的分析和评审。

团队为每篇论文撰写了全面的评审意见。

除了自己的评审之外,Sakana AI还为每篇AI生成的论文添加了内联评论

他们扮演了ICLR会议审稿人的角色,向论文作者AI Scientist提出了自己发现的问题,并建议作者如何通过回应我们提出的问题改进论文。

与研讨会评审过程不同,这种双向交流是顶会或期刊典型同行评审过程的一部分,审稿人与作者共同改进作品。

如下图所示,AI Scientist偶尔会犯令人尴尬的引用错误。

在这里,研究团队发现它错误地将「基于LSTM神经网络」引用写成Goodfellow(2016),而正确的作者应是 Hochreiter 和 Schmidhuber(1997)。

除了评审和评论外,研究团队还在初审阶段,为每篇论文提供了初步评估分数,评估依据顶级ML会议(如NeurIPS、ICLR)的指南进行。

最终,他们得出结论:这3篇论文在其当前形式下,均未达到内部认为能被ICLR主会场接受的内部标准。

然而,他们认为提交至Workshop的论文能够提出有趣、原创的初步想法,可以进一步的大发展,因此研究人员认为它们可能更适合ICLR Workshop分会场。

目前,Sakana AI已在GitHub仓库中,公开了内部人类评审意见,以及这3篇AI生成论文。

项目地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment?tab=readme-ov-file

AI中的不是主会,内部评审未通过

Sakana AI团队坦承,目前AI生成的论文,在其内部标准下尚未达到ICLR主会场的接受水平。

在ICLR、ICML、NeurIPS三大顶会主场,接受率通常在20-30%之间,而ICBINB Workshop接受率在60-70%之间。

尽管这只是Workshop,而非主会场的成果,但这一里程碑式突破预示着更大变革即将到来。

在未来的研究中,团队打算继续改进流程,生成更高质量的科学论文,争取通过顶级会议的标准。

Sakana AI还指出,AI Scientist主要基于当前最先进的LLM打造,因此其表现直接与这些LLM的性能相关。

如果前沿基础模型得到持续改进,那么AI Scientist也将不断提升。

主动撤回论文,科学规范不能破

值得一提的是,Sakana AI在进行这项研究时,高度重视透明度与伦理规范。

他们认为,科学界研究AI生成研究的质量非常重要,而最好的方法之一是,将少量样本提交至与评估人类科学研究相同的严格同行评审过程(前提是已获得管理这些过程的相关方许可)。

Sakana AI与ICLR组委会,以及Workshop组织者全面合作才展开的实验,并获得了不列颠哥伦比亚大学机构审查委员会(IRB)的批准。

此外,AI生成论文不会在OpenReview的公共论坛上公开。根据事先约定的实验协议,Sakana AI主动撤回了被接受的论文。

这是因为,AI和科学界尚未决定是否希望在相同场合发表AI生成的稿件。

团队认为,「作为一个共同体,我们需要制定关于AI生成科学的规范,包括何时以及如何声明一篇论文由AI生成」。

「AI科学家」的未来

Sakana AI坚信相信,AI Scientist的下一代将开启科学的新时代。

AI能够生成一篇通过顶级ML Workshop同行评审的完整科学论文,展现了非常有前景的早期进展迹象。

但,这只是开始。

随着AI继续改进,AI Scientist的能力可能呈指数级增长。

在未来某个时候,AI很可能会生成达到甚至超越人类水平的论文,不仅能在顶级ML顶会上被接受,还能在顶级科学期刊中发表。

参考资料:

相关内容

马克·库班预言:AI将催生...
人工智能技术的飞速发展正在重塑全球财富格局。美国知名投资人马克·库...
2025-07-04 16:42:00
阿里通义团队:AI如何理解...
在日常生活中,我们经常能从一个眼神、一句话的语调或是一个细微的表情...
2025-07-04 06:41:05
画到哪,动到哪!字节跳动发...
Angtian Wang 是字节跳动的研究员,研究方向包括视频生成...
2025-07-03 13:13:17
原创 ...
多模态大模型正在从“看得见”走向“看得懂、想得通”。 智谱正式发布...
2025-07-02 15:40:54
9B“小”模型干了票“大”...
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 如果一个视觉...
2025-07-02 13:41:42
过度依赖AI弊端显现!麻省...
6月,人工智能(AI)的进化呈现越来越专业化细分的新趋势,在天气预...
2025-07-01 13:41:20

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...