ライプツィヒベンチマーク
レイプツィヒにおける大規模言語モデルの数学的推論能力を測定するベンチマークデータセットが公開された。本データセットの作成は2026年4月1日から5月15日にかけて行われ、主にドイツ・レイプツィヒのマックス・プランク科学数学研究所で開催された3日間のワークショップにおいて35名の数学者が中心となって作業を進めた。最終的に49名の研究者が関与し、解答付きの研究段階の数学問題100件からなるコレクションが完成した。 開発チームは作成されたデータセットに対して三つの段階的な評価を実施した。第一段階では、最先端の五大言語モデルを用いた一試行あたりのテストを行い、41問が未解答のまま残った。第二段階では、そのうちの三モデルに対して各20回の試行を実施した結果、未解答数は16問まで減少した。最終段階では、推論能力に特化した重量級の二モデルに対して各3回の試行を行ったところ、未解答問題はわずか2問にまで絞り込まれた。 本調査結果は、大規模言語モデルの数学的推論能力が飛躍的に向上していることを示している。段階的試行を重ねることでモデルの正答率が劇的に改善する傾向は、現在のAIアーキテクチャが複雑な数学的論理を段階的に処理・検証する能力を既に備えていることを明確に裏付けている。 本研究はarXiv:2606.05818として公開され、数学の歴史と概論、人工知能、代数幾何学、組合せ論、表現論などの分野にまたがる学際的な知見を提供している。本ベンチマークは、今後AIの論理推論能力を定量的に評価するための標準的な指標となる可能性を秘めている。
