HyperAI

MIT、KAUST、HUMAIN の共同研究チームは、国際数学オリンピック（IMO）の各国が出題した過去の問題と解答を体系的に収集・整理した「MathNet」という世界最大規模のデータセットを公開しました。これまでに誰も体系的に集められなかったこれらの資料は、47カ国、17の言語、143の競技会にまたがり、総数約3万3000件の高品質な証明付き問題で構成されています。既存のデータセットが米国や中国の競技に偏っていたのに対し、MathNetは6大陸にまたがる多様な数学的伝統とアプローチを網羅しており、AI の数学的推論能力の限界テストや、個人で競技を目指す学生のリソースとして大きな意義を持ちます。プロジェクトのリーダーである MIT の PhD 学生 Shaden Alshammari 氏は、各国が交換し合うだけで廃棄されてきた問題集を、NAVID Safaei 氏などの長年の収集活動によって 1595 冊の PDF や古びたスキャンから復元したと話しています。このデータセットの特徴は、公式の国別問題集に基づいている点です。コミュニティフォーラムに寄せられた非公式な解答とは異なり、専門家が執筆し peer-reviewed（ピアレビュー）された多角的な解説が含まれており、AI モデルが数学的推論を学ぶ上でより豊かな信号源となります。評価グループによる検証を経て公開された MathNet のベンチマーク結果は、AI の数学的能力について複雑な実態を浮き彫りにしました。トップクラスのモデルであっても、約 3 分の 1 の問題を誤っており、特に図形を含む問題では視覚的推論の弱点が顕著でした。また、モンゴル語などマイナーな言語ではオープンソースモデルが得点ゼロを記録するなど、言語的多様性に対する対応の甘さも指摘されました。研究チームは、英語や中国語中心の学習データに偏らないことで、多様な数学的視点から思考力を高めることを目指しています。さらに、MathNet は問題の構造的な類似性を認識する検索ベンチマークとしても機能し、現在の埋め込みモデルでは関連する問題の特定率が 5 割未満に留まるなど、技術的な課題も明らかにしました。このデータセットは、IMO 財団とも共有され、今後の AI 開発と数学教育の両面で重要な役割を果たすことが期待されています。

関連リンク

関連リンク

関連リンク

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。

Command Palette

MIT が世界最大規模の数学オリンピック級問題コレクションを公開

関連リンク

Command Palette

MIT が世界最大規模の数学オリンピック級問題コレクションを公開

関連リンク

Command Palette

MIT が世界最大規模の数学オリンピック級問題コレクションを公開

関連リンク

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。

CVEvolveは、アルゴンヌ国立研究所が提案した、コード不要で自己発見型の科学画像処理アルゴリズムであり、コーディング、結果の自己検証、戦略最適化など、フルスタックの機能を備えている。