当3000多年前的甲骨文遇上现代人工智能,一群00后大学生给出了他们的答案——在华中科技大学,由学生管海粟带领的“卜算子”团队,历经三年攻关,研发出“多途径人工智能辅助甲骨文破译系统”,用科技为甲骨文研究注入新动能。
甲骨文是汉字的源头,蕴藏着中华文明的深厚密码。然而,由于其研究专业门槛极高,破译工作历来进展缓慢。学者胡适曾感叹:“释出一字甲骨文,好比发现一颗新的行星。”
“传统破译依赖专家经验,能否用人工智能打破瓶颈?”2022年,大二学生管海粟通过学校的“实验室轮转”项目,加入了白翔教授的本科生创新团队。在那里,他对用人工智能“揭开甲骨文神秘面纱”产生了浓厚兴趣,并最终选择加入刘禹良老师的课题组,深耕人工智能视觉与自然语言处理研究,开启探索。
收集整理国内外相关领域的上百篇文献进行学习,暑假到河南安阳殷墟遗址、中国文字博物馆调研,与甲骨文专家深度交流……团队成员发现,彼时人工智能研究大多聚焦对已破译甲骨文的识别检测,对未知文字的辅助破译仍是“未充分开发的荒地”。
是否可以通过生成模型,模拟甲骨文演变成现代汉字的过程来辅助破译?管海粟的设想,得到了白翔、刘禹良两位老师的认可。课题组5名同学分别尝试用不同路径探索辅助未知甲骨文破译的方法。
破译的第一步,是搭建高质量数据集——这是人工智能模型的“粮食”。
团队成员分工协作,将《甲骨文字编》《西周金文字编》等典籍与“殷契文渊”等甲骨文数据平台的样本整理录入,两个月内建成数据集,如今已升级为公开的全球规模最大的甲骨文单字和演变的破译基准库。
“甲骨文破译像拼图,既要认字形,又要懂语境。”管海粟在科研笔记中写道。面对古文字专业的精深知识,团队展现了强大的协作能力:来自人文学院古文字强基专业的2023级本科生李祎萌迅速“补位”,与团队成员紧密配合。经过数百天的模型训练与优化,他们最终创新构建起“双轨字形分析破译算法”。
具体来说,团队一方面首次将“图像生成”理念引入甲骨文研究,模拟文字从甲骨文到现代汉字的演变过程,实现从模糊形态到清晰结构的转换;另一方面,研发新型部首拆解模型,将未知文字拆分为可识别的“拼图块”,并还原为现代汉字的组合逻辑。
指导老师刘禹良注意到,团队成员都是基于浓厚兴趣自发做好每项工作,“交代给他们的任务总能‘超预期’完成”。
在刘禹良的指导下,团队不断优化模型与实验。最终,团队构建的系统能够从“形、义、理”三个层面出发,形成甲骨文从字形结构还原、语义生成到文献佐证的全流程辅助破译路径,为专家考释提供可靠依据,有效提升破译效率。
如今,团队的成果已走出实验室,获得多项认可:研究论文入选国际计算语言学年会并获最佳论文;申请相关国家发明专利9项;团队与金山、华为等企业达成合作。
“该团队研发的人工智能系统,创造性地将条件扩散模型应用于甲骨文形构辨析与语义建模,相关研究成果为甲骨文研究开辟了新质技术路径。”不久前,中国社会科学院学部委员、甲骨文研究专家宋镇豪给出如是评价。
宋镇豪表示,甲骨文的考释与传承,需要一批兼具人文修养与科技素养、敢于探索、勇于创新的复合型人才。在传统破译面临瓶颈的背景下,这种跨学科融合的尝试尤显可贵。
管海粟介绍,团队最新研发的人工智能工具已能够模仿人类专家破译流程,可批量分析文字在字形、语境和语义上的破译线索,并自动搜集相关文献,显著提升甲骨文的研究效率。
刘娟 张昌帆 中青报·中青网记者 朱娟娟 雷宇 来源:中国青年报
2025年10月28日 07版