大規模モデルの時間的推論機能のための時間のテスト ベンチマーク テスト データ セット
ToT と呼ばれる Test of Time は、特に大規模言語モデルの時間的推論能力を評価するために、Google DeepMind の研究者によって 2024 年に開始されたベンチマーク テストであり、LLM の時間的理解と演算能力を 2 つの独立した次元から検査します。関連する論文結果は「時の試練: 時間的推論に関する LLM を評価するためのベンチマーク」
ToT のデータセットは 3 つのサブセットに分割されています。ToT-semantic には 1,850 の例が含まれ、ToT-arithmetic には 2,800 の例が含まれ、ToT-semantic-large には 46,480 の例が含まれており、より大規模なデータで時間的理解のセマンティクスを測定できます。スケールとロジック。
データ形式
ToT-semantic および ToT-semantic-large データセットには、次のフィールドが含まれています。
- question: 質問のテキストが含まれます。
- graph_gen_algorithm: グラフ生成アルゴリズムの名前。
- question_type: データセット内の 7 つの質問タイプの 1 つに対応します。
- sort_type: ファクトに適用される並べ替えタイプに対応します。
- プロンプト: LLM タスクを評価するための完全なプロンプト テキストが含まれます。
- ラベル: 質問に対する標準的な回答。
ToT 算術データ セットには、question、question_type、および label の 3 つのフィールドが含まれています。
データソース
ToT は、NetworkX などのパブリック ライブラリを使用して合成的に生成されます。
- 目的: ToT は主にテスト セットとして使用するように設計されています。
- 禁止する:ToT をトレーニング セットとして使用することは固く禁止されています。
ToT.torrent
シーディング 2ダウンロード中 0ダウンロード完了 96総ダウンロード数 115