HyperAI超神经

在人工智能数学奥林匹克（AIMO）与OpenAI合作开展的一项实验中，未经发布的o3-preview模型在50道未公开的奥数级数学题上表现惊人，与顶尖开源模型的差距正迅速缩小。该实验评估了o3-preview（通用模型）与AIMO2竞赛中排名第一和第二的开源团队——NemoSkills（英伟达团队）和imagination-research（清华大学、微软研究院等联合团队）——的性能，并对比了所有2000多个参赛团队模型的综合表现（AIMO2-combined）。实验结果表明，o3-preview在高算力版本下以47/50的得分与AIMO2-combined持平，甚至在计入第二高分答案的情况下实现全对（50/50）。相比之下，NemoSkills和imagination-research在原始Kaggle环境下的得分分别为33/50和34/50，但在使用更强硬件（8×H100 GPU）优化后，双双提升至35/50，显示出其模型在充分释放算力后具备强大潜力。值得注意的是，o3-preview在部分难题上表现超越所有开源团队，如“TRIPAR”和“POLYDI”等题，而NemoSkills成功解出的“RUNNER”题，o3-preview的低、中算力版本均未解决，仅在高算力版本中以第二答案形式出现。这表明o3-preview在训练数据或推理机制上可能存在特定盲区。尽管如此，实验揭示了一个关键趋势：在算力成本相近的前提下，开源模型的推理性能已接近商业闭源模型。o3-preview低算力版本每题成本略低于1美元，与运行单个顶尖开源模型的费用相当。而原始开源团队的综合得分（38/50）落后于o3-preview低算力版本五分，说明在合理算力投入下，性能差距已大幅收窄。此外，AIMO2-combined的47/50得分表明，大量开源模型的集体智慧在生成候选答案方面极具优势，若搭配高效筛选机制，有望逼近闭源模型水平。总体来看，这一实验标志着开源AI在高级数学推理领域正快速追赶商业模型。尽管闭源模型仍具优势，但差距正在缩小。AIMO3将于2025年秋季启动，问题难度将提升至国际数学奥林匹克（IMO）级别，进一步推动AI数学推理的发展。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

奥数级数学挑战中，商用与开源大模型差距显著缩小｜AIMO奖项揭示关键进展

相关链接

Command Palette

奥数级数学挑战中，商用与开源大模型差距显著缩小｜AIMO奖项揭示关键进展

相关链接

Command Palette

奥数级数学挑战中，商用与开源大模型差距显著缩小｜AIMO奖项揭示关键进展

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化