Omni-MATH 数的推論ベンチマーク データセット
※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。
Omni-MATH は、オリンピック レベルの数学的問題に対する大規模言語モデル (LLM) のパフォーマンスを評価するために、北京大学と Alibaba によって作成されたオリンピック レベルの数学的推論ベンチマーク データセットです。関連する論文結果は「Omni-MATH: 大規模な言語モデルのための世界オリンピックレベルの数学ベンチマーク”。
このデータセットには、厳密に手動で注釈が付けられた競技レベルの数学問題 4,428 個が含まれており、オリンピック準備レベルから、IMO (国際数学オリンピック)、IMC (国際数学) などのオリンピックのトップクラスの数学競技まで、33 のサブフィールドと 10 以上の異なる難易度をカバーしています。コンペティション)、パトナム数学コンペティションなど。
Omni-MATH の作成プロセスには、世界的な数学コンテストからデータを収集し、データの高品質と多様性を確保するために人による注釈を介して検証することが含まれます。データセットの構築中に、研究チームは GPT-4o を使用して問題を分類し、異なる数学分野に分割して、さまざまな数学分野でのモデルのパフォーマンスを評価しました。

Omni-MATH.torrent
シーディング 1ダウンロード中 0ダウンロード完了 26総ダウンロード数 44