HyperAI

2024年7月，Google DeepMind宣布其AI系统AlphaProof在国际数学奥林匹克竞赛（IMO）中斩获银牌，成为首个在该赛事中获得奖牌的人工智能系统。这一成就在11月12日通过发表于《自然》杂志的完整论文得以全面披露。AlphaProof与AlphaGeometry 2协同作战，成功解答了六道题目中的四道，总分28分，达到当年参赛者前10%的水平，尤其攻克了被誉为当年最难的第六题——仅五名人类选手完全解决此题。这一突破标志着AI在高级数学推理领域迈出了关键一步。 AlphaProof的核心创新在于将形式化数学语言与强化学习深度融合。为克服大语言模型常见的“幻觉”问题（即生成看似合理实则错误的推理），研究团队采用Lean这一交互式定理证明系统作为底层环境。Lean能自动验证每一步推理的逻辑正确性，确保输出无误。然而，Lean的数学库mathlib仅有约二十万个定理，远不足以支撑大规模训练。为此，团队利用微调后的Gemini模型，将一百万个自然语言数学命题自动转化为八千万条Lean形式化语句，构建了庞大的合成训练数据集。系统架构借鉴AlphaZero思想，采用一个拥有三十亿参数的编码器-解码器变换器网络，输出策略（建议下一步行动）与价值函数（评估路径前景），配合一种名为“乘积节点”的树搜索机制。该机制要求所有子目标同时被证明，有效追踪进度并聚焦难点，显著提升搜索效率。最具突破性的技术是“测试时强化学习”（Test-Time RL, TTRL）：面对难题时，系统自动生成一系列难度递增的变体问题，通过逐步攻克简单情形积累经验，最终解决原始难题。这一策略在破解第六题中发挥了决定性作用。训练过程采用渐进式策略：初期限制搜索规模以避免资源浪费，随着能力提升逐步扩展深度与广度。尽管AlphaProof解决某些问题仅需几分钟，个别难题耗时长达三天，但研究团队强调，目标并非速度竞赛，而是验证推理能力是否达到人类奥赛水平。菲尔兹奖得主Timothy Gowers评价其为“显著进步”，剑桥大学专家Katie Collins则指出，自动化形式化将极大增强数学成果的可信度与协作效率。值得注意的是，同年IMO中DeepMind推出的Gemini Deep Think系统已实现端到端自然语言推理，在4.5小时内取得35分金牌，无需形式化语言中介。这表明AI数学推理正从“形式化路径”向“自然语言路径”快速演进。未来两者或将融合，催生更强大、通用的数学AI工具。尽管AlphaProof表现优异，仍面临挑战：目前需人工将IMO题目转化为形式语言；其在组合数学领域表现较弱，团队正探究原因。论文作者Julian Schrittwieser强调，TTRL的可扩展性受限于TPU算力，暗示未来可通过更大规模计算实现更强推理能力。总体而言，AlphaProof不仅验证了强化学习与搜索对大模型的有效性，也为构建可验证、可信赖的通用AI系统提供了全新范式。

Verwandte Links

Verwandte Links

Verwandte Links

Die Universität Cambridge Und Andere Haben Ein Fundamentales Modell Auf Pixelebene Für Erdbeobachtungsmissionen Vorgeschlagen, Mit Dem in Mehreren Missionen Eine Genauigkeit Auf Dem Neuesten Stand Der Technik (SOTA) Erreicht wurde.

Die Universität Cambridge Und Andere Haben Ein Fundamentales Modell Auf Pixelebene Für Erdbeobachtungsmissionen Vorgeschlagen, Mit Dem in Mehreren Missionen Eine Genauigkeit Auf Dem Neuesten Stand Der Technik (SOTA) Erreicht wurde.

Command Palette

Google AlphaProof löst IMO-Aufgaben mit formaler Mathematik und KI-Verifizierung

Verwandte Links

Command Palette

Google AlphaProof löst IMO-Aufgaben mit formaler Mathematik und KI-Verifizierung

Verwandte Links

Command Palette

Google AlphaProof löst IMO-Aufgaben mit formaler Mathematik und KI-Verifizierung

Verwandte Links

Die Universität Cambridge Und Andere Haben Ein Fundamentales Modell Auf Pixelebene Für Erdbeobachtungsmissionen Vorgeschlagen, Mit Dem in Mehreren Missionen Eine Genauigkeit Auf Dem Neuesten Stand Der Technik (SOTA) Erreicht wurde.

Die Universität Cambridge Und Andere Haben Ein Fundamentales Modell Auf Pixelebene Für Erdbeobachtungsmissionen Vorgeschlagen, Mit Dem in Mehreren Missionen Eine Genauigkeit Auf Dem Neuesten Stand Der Technik (SOTA) Erreicht wurde.