HyperAIHyperAI

Command Palette

Search for a command to run...

AI数学オリンピックで開発されたオープンソースモデルが、商用モデルとの差を縮める局面に

人工知能数学オリンピック(AIMO)とOpenAIの共同実験により、商用モデルとオープンソースモデルの数学的推論性能の格差が急速に縮小していることが明らかになった。2025年4月に終了したAIMO2競技会では、英国数学オリンピック(BMO)や米国数学オリンピック(USAMO)レベルの難問50問に挑戦し、最上位チームが34/50の高得点を記録。この50問は、すべての参加モデルが未見の問題で、データ漏洩のリスクを最小限に抑えた完全な評価環境だった。 この評価で、OpenAIが非公開で開発中の大規模言語モデル「o3-preview」を用いて実験。高計算資源版では50問中47問を正解し、トップ5チームの合計性能(AIMO2-combined)と同等の結果を達成。低計算資源版でも43問正解、中程度でも46問を正解し、商用モデルの実力が極めて高いことが示された。特に「RUNNER」という問題では、NemoSkillsや多数の参加チームが正解したが、o3-previewの低・中計算版は正解できず、高計算版でも2位の回答にとどまった。逆に「EIGHTS」問題では、o3-previewがトップ回答を出し、トップ5チーム全員が正解できなかった。 一方、AIMO2優勝チームのNemoSkills(NVIDIA研究者チーム)とimagination-research(清華大学・マイクロソフト研究者チーム)は、8枚のH100 GPUを用いた非制限環境で再評価。両チームとも、Kaggleでの得点(33/50、34/50)を上回る35/50の成績を達成。これは、モデルの制限を外すことで性能が向上することを裏付けている。 最も注目すべきは、オープンソースモデルの集団性能(AIMO2-combined)が、高計算版o3-previewと同等の47/50を達成した点。複数のモデルが異なるアプローチで答えを出力し、その中から正しいものを選ぶ「サンプル&ランク」戦略が効果を発揮した。一方で、o3-previewは高計算版で正解を出せるものの、一部の問題(特に「RUNNER」)で訓練データの偏りが影響している可能性がある。 総合的に、商用モデルは依然として優位だが、オープンソースモデルの集団的知能と高計算資源活用により、性能差は大幅に縮小。計算コストを考慮しても、商用モデルの優位性は限定的。今後、2025年秋に開幕するAIMO3では、国際数学オリンピック(IMO)レベルの問題に挑戦し、さらに難易度が向上する予定。オープンソースAIの進化が、AIの透明性と科学的再現性を支える鍵となる。

関連リンク