谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平
创始人
2025-02-08 14:17:11
0

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

谷歌DeepMind最新数学AI,一举解决了2000-2024年IMO竞赛中 84%的几何问题。

AlphaGeometry2论文发布,在总共50道题中完成了42道,相比去年的一代多完成了15道。

作为对比,纯语言模型OpenAI o1和Gemini Flash Thinking一道都解决不了。

Nature发文评价:DeepMind AI粉碎了数学难题,达到金牌得主水平,与顶级人类选手相当。

就比如说2024年竞赛中的第四题,AlphaGeometry2 完成它只需要19秒

如图所示,这道题要求证明∠KIL和∠XPY的合等于180°(蓝色表示)。

AlphaGeometry2构造的辅助线用红色表示,E是BI延长线上的点,使得∠AEB=90°,通过E点 一步得到了几对相似三角形,最终完成证明。

通讯作者Thang Luong分享了更疯狂的一道题,来自IMO Shortlist 2009。

根据谷歌咨询的IMO教练,此问题以前仅有数值解。

但AlphaGeometry2巧妙地构造出了复杂的辅助结构(红色表示),给出优雅的证明,这些辅助点的位置都是神经网络预测的。

AlphaGeometry2四大升级

根据论文介绍,AlphaGeometry2取得大幅提升主要来自于4项升级:

- 扩展版的领域专用语言

- 升级版的符号推理引擎DDAR2

- 全新的搜索算法SKEST

- 更强大的语言模型

扩展几何领域专用语言

AlphaGeometry1中的领域专用语言只包含9个基本“谓词”,包括相等、垂直、平行、共线、共圆等。

这足以覆盖2000-2024年所有IMO几何问题中66%的情况,但无法表示线性方程、点/线/圆的移动,以及“计算某个角度”等常见问题。

在进行补充之后,覆盖率从66%提高到88%。

借助领域专用语言,AlphaGeometry系统可以做到自动形式化和自动生成示意图。

这样一来,只剩下12%涉及3D几何、不等式、非线性方程和可数的多个点问题。

对于这些问题,AI只能跳过,在图中标记为“Not attempted”。

更强大、更快的符号推理引擎DDAR2

符号引擎推理是AlphaGeometry的核心组件,称为DDAR(Deductive Database

Arithmetic Reasoning,演绎数据库算术推理)。

它基于给定的一组核心初始事实,计算所有可推导事实的集合,遵循一组固定的演绎规则迭代地将新事实添加到集合中,直到不能再添加为止。

DDAR既负责生成语言模型的训练数据,在测试时也负责搜索推理步骤。

DDAR2有三个主要改进:

增加处理两个名称不同但坐标相同的点的能力。

更快的算法:提取所有关键规则并硬编码,把最坏情况的时间复杂度从8次方减少到三次方级别;舍弃了关于角度和距离的显式规则,改为自动完成。

更快的代码实现,从Python改成C++,在AMD EPYC 7B13 64核CPU上快了300倍。

全新的搜索算法SKEST

多个配置不同的搜索树并行运行,通过知识共享机制相互启发,从而更高效地寻找证明路径。

在每个搜索树中,一个节点包括一次辅助结构构造和符号引擎的尝试。

如果成功了,所有搜索树便会终止。

如果失败了,这次尝试成功证明的事实会被记录到共享事实库中,事实对同一搜索树中的其他节点以及不同搜索树中的节点都可能有用。

更强大的语言模型:最新Gemini

AlphaGeometry2的语言模型采用最新的Gemini架构,设计了三种训练方法:

  • 在领域专用语言的自定义分词器上从头预训练

  • 在自然语言上微调预训练的数学版Gemini

  • 用额外的图像输入从头开始多模态训练。

通过实验得出如下结论:

分词器和训练数据,都不是关键因素

  • 较小词汇表的分词器和通用Gemini分词器,取得了相似的结果

  • 自然语言训练和领域专用语言训练,也是相似的结果

视觉信息和图示对解决几何问题并不重要,几何问题解决的核心在于代数推理,而不是几何推理。

  • 单独使用多模态模型,没有显著提高系统的能力

  • 多模态模型生成的辅助点与其他模型不同,通过知识共享和其他模型组合起来可以提高整体性能

One More Thing

2023年,,但要求系统必须开源。

虽然现在AlphaGeometry2已经有了获得金牌的能力,但他不开源。

对这个领域感兴趣的团队还有机会哦~

最后,2025年的IMO竞赛将于7月份在澳大利亚举行。

论文地址:

https://arxiv.org/pdf/2502.03544

参考链接:

评选报名2025年值得关注的AIGC企业&产品

下一个AI“国产之光”将会是谁?

本次评选结果将于4月中国AIGC产业峰会上公布,欢迎参与!

相关内容

卓易信息:通过多智能体协作...
证券之星消息,卓易信息(688258)07月04日在投资者关系平台...
2025-07-04 18:13:00
AI+将给汽车产业打开什么...
作者 / 路 行 编辑 / 黄大路 设计 / 柴文静 编者按: ...
2025-07-04 16:41:55
阿里通义团队:AI如何理解...
在日常生活中,我们经常能从一个眼神、一句话的语调或是一个细微的表情...
2025-07-04 06:41:05
平安好医生入选首批“开源大...
7月3日,由全球数字经济大会组委会主办,中国信息通信研究院(以下简...
2025-07-03 21:41:09
计算架构,行业AI竞争的下...
2025-07-03 16:25:26 作者:狼叫兽 当Dee...
2025-07-03 17:42:01
阿里与荣耀进一步深化AI生...
央广网北京7月3日消息(记者 冀文超)7月2日,荣耀全新年度折叠旗...
2025-07-03 17:12:53

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...