HyperAI超神经

ToT と呼ばれる Test of Time は、特に大規模言語モデルの時間的推論能力を評価するために、Google DeepMind の研究者によって 2024 年に開始されたベンチマークテストであり、LLM の時間的理解と演算能力を 2 つの独立した次元から検査します。関連する論文結果は「時の試練: 時間的推論に関する LLM を評価するためのベンチマーク」

ToT のデータセットは 3 つのサブセットに分割されています。ToT-semantic には 1,850 の例が含まれ、ToT-arithmetic には 2,800 の例が含まれ、ToT-semantic-large には 46,480 の例が含まれており、より大規模なデータで時間的理解のセマンティクスを測定できます。スケールとロジック。

データ形式

ToT-semantic および ToT-semantic-large データセットには、次のフィールドが含まれています。

question: 質問のテキストが含まれます。

graph_gen_algorithm: グラフ生成アルゴリズムの名前。

question_type: データセット内の 7 つの質問タイプの 1 つに対応します。

sort_type: ファクトに適用される並べ替えタイプに対応します。

プロンプト: LLM タスクを評価するための完全なプロンプトテキストが含まれます。

ラベル: 質問に対する標準的な回答。

ToT 算術データセットには、question、question_type、および label の 3 つのフィールドが含まれています。

データソース

ToT は、NetworkX などのパブリックライブラリを使用して合成的に生成されます。

目的： ToT は主にテストセットとして使用するように設計されています。
禁止する：ToT をトレーニングセットとして使用することは固く禁止されています。

大規模モデルの時間的推論機能のための時間のテスト ベンチマーク テスト データ セット

データ形式

データソース

大規模モデルの時間的推論機能のための時間のテストベンチマークテストデータセット