陶哲轩回应 OpenAI 新模型 IMO 夺金，GPT-5 测试版曝光

量子位
2025-07-20 11:29

OpenAI 最新模型曝光了，在 2025 年国际数学奥林匹克竞赛（IMO）上达到了金牌水平！

IMO 被公认为全球最顶尖的数学竞赛，每年只有不到 8% 的参赛者能够获得金牌。而现在，一个 AI 模型做到了。

新模型最终成绩：新模型在总共 6 道题中成功解决了 5 道，获得 35 分（满分 42 分），超过了今年的金牌线。

OpenAI 员工 Alexander Wei 还透露，GPT-5 即将发布，但 IMO 金牌模型是一个实验性研究，在几个月内都没有计划发布。

他特别强调，这次成功并非依靠针对特定任务的狭隘方法，而是在通用强化学习和测试时计算扩展方面取得了新突破。

与此同时，第三方机构的开源代码中被发现 GPT-5-reasoning-alpha-2025-07-13 的字样。

这段代码被挖出来后很快就被删除或隐藏，结合 OpenAI 在新模型发布前会找第三方机构进行安全测试的惯例 ——

种种迹象表明，GPT-5 离我们不远了。

35 分斩获金牌，解题过程完全模拟人类考试

具体来看 OpenAI 的实验性新模型，这次评测可不是随便做个题那么简单。

OpenAI 团队让模型在与人类选手完全相同的条件下参加考试：两场各 4.5 小时的考试，不能使用任何工具或联网，只能阅读官方题目陈述，然后用自然语言写出证明过程。

最终成绩出来了：模型在 6 道题中成功解决了 5 道，获得 35 分（满分 42 分），稳稳超过了今年的金牌线。

今年 IMO 的金牌分数线正好是 35 分，这个成绩放在人类选手中也是妥妥的金牌水平。今年约 600 名参赛者中，只有 5 人拿到了满分。

更让人印象深刻的是评分过程的严谨性。每道题的解答都由三位前 IMO 奖牌获得者独立评分，只有在三人达成一致意见后才确定最终分数。

这次突破的意义不止于成绩，正如研究团队所说，IMO 问题需要的是一种全新水平的持续创造性思维。

从推理时间跨度来看，AI 的进步速度简直让人瞠目结舌：从 GSM8K（顶尖人类约需 0.1 分钟）到 MATH 基准测试（约 1 分钟），再到 AIME（约 10 分钟），现在终于攻克了 IMO（约 100 分钟）这个需要长时间深度思考的难题。

更重要的是，IMO 的答案是难以验证的多页证明，这与之前那些有明确正确答案的数学题完全不同。OpenAI 团队表示，他们突破了传统强化学习中依赖明确可验证奖励的范式，创造出了能够像人类数学家一样构建精巧论证的模型。

唯一没能攻克的是第六题 —— 这道被参赛者称为“最终 Boss”的组合数学难题：

有一个 2025×2025 的单位正方形网格。玛蒂尔达希望在网格上放置一些矩形块，这些块的大小可能不同，使得每个块的每一条边都位于网格线上，并且每个单位正方形最多被一个块覆盖。求玛蒂尔达需要放置的最小块数，使得网格的每一行和每一列都恰好有一个单位正方形未被任何块覆盖。

去年 IMO 题目中，谷歌用 Alphaproof 和 AlphaGeometry 完成了四道题，未完成的两道也属于组合数学。

不过这一次，DeepMind 研究员 Archit Sharma 在 OpenAI 宣布后回复：“恭喜！抢在我们前面宣布了 —— 第 6 题是新的基准了吗？”

但这条推文很快就被删除了。

这个小插曲引发了网友们的各种猜测：莫非 Google 的模型也达到了类似水平。

如果感兴趣的话，还可以进一步查看 OpenAI 公开的 AI 解题过程，链接在文末获取。

引发圈内热议，陶哲轩发表长评

OpenAI 模型斩获 IMO 金牌的消息一出，AI 圈炸开了锅。不过，在一片赞叹声中，也出现了一些不同的声音。

其中最受关注的，当属数学界顶尖学者陶哲轩的表态，他在社交媒体上针对此事发表了长篇评论。

陶哲轩指出，虽然多家 AI 公司都声称在 IMO 题目上取得了好成绩，但由于缺乏统一的测试环境和标准，很难进行公平比较。

人们很容易将当前 AI 的能力视为一个单一的量化指标 —— 要么能搞定某件事，要么就完全不行。但其实不是这样，AI 到底有多厉害，这得看给它多少资源、多少辅助手段以及不同的结果呈现方式，种种因素影响下，AI 能力能差出好几个量级。

他特别强调：“在没有预先公布方法论的情况下，不会对任何自我报告的 AI 竞赛表现发表评论。”

陶哲轩用生动的比喻列举了多项 AI 可能采取的措施：

给学生几天时间来完成每道题，而非用四个半小时解答三道题。（稍微延伸一下：给学生的时间仍只有四个半小时，但领队将他们放入某种昂贵且耗能巨大的时间加速装置，在这段时间里，学生们会经历数月甚至数年的时光。）

考试开始前，领队将题目改写成学生更易理解的形式。

领队让学生可以无限制使用计算器、计算机代数软件、形式化证明辅助工具、教科书，或者拥有上网搜索的权限

领队让 6 名学生组成的团队共同攻关同一道题，就各自的部分进展和遇到的瓶颈进行交流。

领队给学生提示可行的解题方向，若发现有学生在明知不太可能成功的方向上耗费过多时间，便会进行干预。

团队的 6 名学生都提交了解答，但领队只挑选出“最佳”解答提交给竞赛，其余的则弃之不用。

若团队中没有任何一名学生得出令人满意的解答，领队就完全不提交任何解答，悄无声息地退出竞赛，且无人知晓他们曾参与过。

而这些措施均改变了竞赛形式从而影响题目难度。

与此同时，数学竞赛评测平台 MathArena 发布了独立评测结果。

在他们的测试中，即使是表现最好的 Gemini 2.5 Pro 也只获得了 13 分（31%），远低于铜牌线 19 分。

测试使用了 best-of-32 的选择策略，即对于每个模型的解答，首先生成 32 份回应，随后借助“大语言模型评审系统”对这些回应进行评估，两两比对选出更优答案。

每份最终的模型答案生成成本至少为 3 美元，其中 Grok-4 模型每份答案的成本超过 20 美元，但即便如此，仍然没有任何模型能达到获奖牌的水平。

MathArena 团队也同步更新了 OpenAI 宣布实验模型拿到 IMO 金牌的消息：

无法验证这些结果是如何实现，期待该模型的发布以及使用 MathArena 基准进行独立评估。

虽然 OpenAI 模型拿金牌的方法论未公开，但也有不少网友表示，不看过程，结果同样具有意义。

OpenAI 团队对自己的成果充满信心。

参与此项目的研究员 Alexander Wei 回忆说：“2021 年，我的博士导师让我预测 2025 年 7 月 AI 在数学上的进展，我当时预测 MATH 基准测试能达到 30%（还觉得其他人都太乐观了）。结果现在我们拿到了 IMO 金牌。”

OpenAI 新模型解题过程：

https://github.com/aw31/openai-imo-2025-proofs/

参考链接：

[1]https://twitter.com/alexwei_/status/1946477742855532918
[2]https://x.com/btibor91/status/1946532308896628748
[3]https://social.vivaldi.net/@tao@mathstodon.xyz/114881418791593328
[4]https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/
[5]https://matharena.ai/imo

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨、西风，原标题《陶哲轩回应 OpenAI 新模型 IMO 夺金！GPT-5 测试版也曝光了》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。