AI浪潮下 北大青年这样守护“提问”的能力
创始人
2026-01-23 07:18:53
0

题目编写审核流程。北京大学化学与分子工程学院供图

2025年年末,北京大学化学与分子工程学院的一间教室里,174名大二学生正面对一场特殊的期中考试。试卷上,晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算等硬核题目扑面而来,而考生们的“竞争对手”并非同窗,而是ChatGPT、Gemini、DeepSeek等当下最顶尖的人工智能大语言模型。

这场“云端对决”的背后,是北大青年科研团队在去年12月打造的SUPERChem项目——一套包含500道高难度试题的基准测试集,旨在用“北大标准”丈量AI在化学领域的真实推理能力。

在团队成员、北京大学化学与分子工程学院2020级博士研究生黄志贤看来,设计这套高难度题库的目的并不是为了证明AI不行,而是搞清楚AI到底“懂不懂化学”,为AI的发展提供更清晰的参考。

在AI大模型技术爆发式发展的当下,人们似乎已经习惯向AI索取答案,“AI能解决各类复杂问题”的声音不绝于耳,而这群年轻的科研人员选择用最严谨的方式,对技术热潮进行一次冷静的追问。

前沿模型在SUPERChem上的表现。北京大学化学与分子工程学院供图

“在AI发展过程中留下自己的痕迹”

黄志贤在日常学习和科研中经常和AI进行对话,但是他发现,对于一些自己“一眼就能看懂”的分子结构图,AI却怎么也看不清,使得其在判断和解释化学反应时,“说出的内容看似一板一眼,但是往往都是幻觉,得出的结论有事实性错误”。

带着这样的疑问,黄志贤和几名志同道合的同学一起调研了现有的化学AI基准测试,发现很多模型“要么太简单,模型分数都快刷满了,没有区分度;要么都是些工具性任务,缺少有化学特色的深度推理”。

黄志贤向中青报·中青网记者表示,化学有一套独特的语言来描述分子结构,尤其是描述分子结构式的字符与二维图像,这在科研与学习中都非常重要。但AI大模型依靠高效的“背书”能力考出的高分往往是数据记忆的功劳,却难以触及化学学科的核心——那些需要三维空间想象、严密逻辑推演和微观世界认知的复杂任务。

“我们决定建立一套难度更高、更具有化学特色的测试基准,不仅看它能不能做对题,还要看它的推理过程是不是合理。我们希望这套标准能够推动AI逐步掌握化学知识、深化对自然科学的理解,并在未来促进科学研究与创新发现,与人类携手共同进步。”黄志贤说。

于是,团队成员之一、北京大学化学与分子工程学院2024级博士研究生赵泽华在去年“五一”假期前拟定了SUPERChem的提案,发给学院党委书记裴坚和党委副书记高珍两位老师。

赵泽华回忆,高珍老师在收到提案后“立刻打来了电话”,详细了解了这个新领域的基本概念、技术实现细节和国内外已有的相关工作,帮学生理清思路。“五一”假期末,两位老师与学生自发组成的科研团队进行了第一次正式讨论。

高珍仍然记得,当初几名学生向学院提出SUPERChem的设想时,自己曾问过他们“为什么想做这个项目”。

“在AI发展过程中留下自己的痕迹,推动AI走得更远。”黄志贤、赵泽华等团队成员的回复,也成了设计SUPERChem项目的初心。在高珍看来,统筹这个项目的过程中最让她感到骄傲的,是学生们纯粹的科研情怀和不计回报的热情。

学生提出构想,教师提供资源;在考验AI水平上限的赛道上,师生都站在“同一起跑线”。“北大化院拥有在化学竞赛题目积累、顶尖师生资源等方面的优势,因此我们也有义务去做好这个项目。”高珍说。

设计出AI“没见过”的题库

然而,要打造集合几百道高难度“原创试题”的题库,仅依靠团队内的几名成员是远远不够的。

工欲善其事,必先利其器。团队决定先搭建一个能够支持多方在线出题的高效协作平台,这对于非计算机专业的黄志贤、赵泽华等成员来说,也成了自己的跨界挑战。

“我主要负责协作平台网站前端开发,完全是边学边做,还借助了AI智能体帮忙写代码。”黄志贤表示,AI确实降低了跨领域实践的门槛,帮助自己接触到更广阔的平台。

在平台搭建完成之后,化院的老师们在每个年级群里都发布了“出题人”招募通知。团队很快就收到了上百名同学的报名申请。

最终,参与试题设计的77名学生中,包括3位国际化学奥林匹克(IChO)获奖选手与64位中国化学奥林匹克(CChO)决赛获奖选手。他们从高难度试题和前沿专业文献中汲取灵感,进行深度改编。

赵泽华还设计了一套积分激励系统,让传统的出题、审题、修题等单调枯燥的任务变成了一套类似游戏的“打怪升级”流程。一道题目需历经编写初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的学生把关,并发放相应的积分。积累一定积分的出题人还能获得审核他人题目的权限。一些终审通过的题目,甚至最多迭代过15个版本。

在团队搭建的这套专属协作平台上,参与出题的成员互相审阅、彼此“找茬”,用最严谨的科学思维探索AI的“硬实力”。

“我们会把题目中的药物分子等具有明显特征的名词用‘化合物A、B’来指代,这样AI就无法通过背景信息‘作弊’。”赵泽华告诉中青报·中青网记者,在题型设置上,团队全部采用选择题,“因为简答或填空题的开放式回答拥有语义多样性,很难客观地自动化评价,因此限制了评估的效率与准确性”。为了防止AI从选项中“蒙对答案”,团队还特意将题目的选项增加到6-9个。

随着174名大二学生和几款顶尖AI大模型纷纷交上自己的答卷,考试结果显示,作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率,而顶尖AI大模型的成绩仅与低年级本科生平均水平相当,AI在化学核心能力上仍然存在明显短板。

此外,团队还为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。

团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。

这样的结果也在团队的预料之内。“当前主流AI大模型的底层逻辑是基于一维文本序列的预测,无法完全调动多模态能力解读图像,也就不能真正满足化学学科在二维、三维中分析立体信息的需求。”黄志贤说。

对参与项目的学生而言,这场科研探索更像是一次深刻的自我提升。“出题时要绞尽脑汁难住AI,这个过程要求我们必须把知识点学深学透,串联起来进行严谨推理。”黄志贤表示,很多学生在向AI提问的过程中开始思考:AI时代,该如何选择自己的研究方向?哪些工作是AI难以替代的?AI能帮助自己做哪些更有意义的研究?

“简单的知识背诵、基础的计算任务,AI可能做得比人好,但深度推理、科研创新这些需要人类智慧的领域,才是我们该专注的方向。”黄志贤说。

这场测试的影响,也延伸到了考场之外的北大校园。黄志贤观察到,现在已有不少老师开始创新考核方式,设计AI做不出来的题目作为考题,激发学生更活跃的自主思维。

守护“向AI提问”的能力

发布SUPERChem不是终点,而是一个开始。目前,团队已将项目全面开源,希望这套源自北大的“试卷”能成为全球科学与人工智能领域的公共财富。

高珍透露,此前已有互联网企业联系团队,希望由此项目延伸出相关知识学习类软件程序的开发,“不过目前我们主要聚焦项目的学术性,AI的成长速度太快,下一步我们要密切关注AI的迭代更新,增加对它的考核难度和综合性”。

“后续我们可能会根据学界和工业界对化学领域前沿问题的关注,持续更新我们的题库。”黄志贤提到,目前的题库在专业性上更偏向于奥林匹克竞赛,接下来希望调动更多学术资源,集合更多垂直领域的研究课题,将它们改编成更具研究性质的开放性题目,以此来评估AI能不能成为一个自然科学领域的“学术研究者”。

高珍表示,未来随着项目更加成熟,也许会回归到基础知识,打造既适合AI又适合人类学习的题库和平台。

在团队成员看来,SUPERChem就像一个路标:从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走,那是从“记住知识”到“理解物理世界”的跨越。或许在不久的将来,AI真的能交出一份满分答卷——而这,正是化学与人工智能共同的惊喜。

这场始于“考AI”的科研探索,最终指向的是对科学和教育初心的坚守,也是对人类与技术关系的深刻思考。当AI能够瞬间回答那些已经有答案的问题时,教育要做的,也许就在于培养学生不断提出新问题的能力。

中青报·中青网记者 王璟瑄 来源:中国青年报

2026年01月23日 05版

相关内容

AI浪潮下 北大青年这样守...
题目编写审核流程。北京大学化学与分子工程学院供图 2025年年末,...
2026-01-23 07:18:53
AI科技:重塑时代的智能浪...
当搭载自主学习能力的机器人精准完成焊接任务,当AI系统在医学影像中...
2026-01-22 13:51:51
数智赋能青年坐标重塑与教育...
编者按 人工智能浪潮深刻重塑社会生态的当下,青年如何锚定精神坐标、...
2026-01-22 13:19:50
2026年人工智能(AI)...
公众号『AI行业星球』 报告共25页 导读:报告聚焦 AI 从实验...
2026-01-22 09:52:11
记住VoidLink吗?这...
VoidLink是一个新发现的Linux恶意软件,专门针对受害者的...
2026-01-22 06:44:46
AI进化速递 | Meta...
①工信部:AI已渗透领航级智能工厂70%以上业务场景; ②上海张江...
2026-01-21 21:20:21

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...