HyperAIHyperAI

Command Palette

Search for a command to run...

奥数级数学挑战中,商用与开源大模型差距显著缩小|AIMO奖项揭示关键进展

在人工智能数学奥林匹克(AIMO)与OpenAI合作开展的一项实验中,未经发布的o3-preview模型在50道未公开的奥数级数学题上表现惊人,与顶尖开源模型的差距正迅速缩小。该实验评估了o3-preview(通用模型)与AIMO2竞赛中排名第一和第二的开源团队——NemoSkills(英伟达团队)和imagination-research(清华大学、微软研究院等联合团队)——的性能,并对比了所有2000多个参赛团队模型的综合表现(AIMO2-combined)。 实验结果表明,o3-preview在高算力版本下以47/50的得分与AIMO2-combined持平,甚至在计入第二高分答案的情况下实现全对(50/50)。相比之下,NemoSkills和imagination-research在原始Kaggle环境下的得分分别为33/50和34/50,但在使用更强硬件(8×H100 GPU)优化后,双双提升至35/50,显示出其模型在充分释放算力后具备强大潜力。 值得注意的是,o3-preview在部分难题上表现超越所有开源团队,如“TRIPAR”和“POLYDI”等题,而NemoSkills成功解出的“RUNNER”题,o3-preview的低、中算力版本均未解决,仅在高算力版本中以第二答案形式出现。这表明o3-preview在训练数据或推理机制上可能存在特定盲区。 尽管如此,实验揭示了一个关键趋势:在算力成本相近的前提下,开源模型的推理性能已接近商业闭源模型。o3-preview低算力版本每题成本略低于1美元,与运行单个顶尖开源模型的费用相当。而原始开源团队的综合得分(38/50)落后于o3-preview低算力版本五分,说明在合理算力投入下,性能差距已大幅收窄。 此外,AIMO2-combined的47/50得分表明,大量开源模型的集体智慧在生成候选答案方面极具优势,若搭配高效筛选机制,有望逼近闭源模型水平。 总体来看,这一实验标志着开源AI在高级数学推理领域正快速追赶商业模型。尽管闭源模型仍具优势,但差距正在缩小。AIMO3将于2025年秋季启动,问题难度将提升至国际数学奥林匹克(IMO)级别,进一步推动AI数学推理的发展。

相关链接