HyperAIHyperAI

Command Palette

Search for a command to run...

大規模モデルの時間的推論機能のための時間のテスト ベンチマーク テスト データ セット

日付

2年前

サイズ

41.76 MB

データセット構成

ディープマインド

Paper URL

arxiv.org

ライセンス

CC BY 4.0

ToT と呼ばれる Test of Time は、特に大規模言語モデルの時間的推論能力を評価するために、Google DeepMind の研究者によって 2024 年に開始されたベンチマーク テストであり、LLM の時間的理解と演算能力を 2 つの独立した次元から検査します。関連する論文結果は「時の試練: 時間的推論に関する LLM を評価するためのベンチマーク

ToT のデータセットは 3 つのサブセットに分割されています。ToT-semantic には 1,850 の例が含まれ、ToT-arithmetic には 2,800 の例が含まれ、ToT-semantic-large には 46,480 の例が含まれており、より大規模なデータで時間的理解のセマンティクスを測定できます。スケールとロジック。

データ形式

ToT-semantic および ToT-semantic-large データセットには、次のフィールドが含まれています。

  • question: 質問のテキストが含まれます。
  • graph_gen_algorithm: グラフ生成アルゴリズムの名前。
  • question_type: データセット内の 7 つの質問タイプの 1 つに対応します。
  • sort_type: ファクトに適用される並べ替えタイプに対応します。
  • プロンプト: LLM タスクを評価するための完全なプロンプト テキストが含まれます。
  • ラベル: 質問に対する標準的な回答。

ToT 算術データ セットには、question、question_type、および label の 3 つのフィールドが含まれています。

データソース

ToT は、NetworkX などのパブリック ライブラリを使用して合成的に生成されます。

  • 目的: ToT は主にテスト セットとして使用するように設計されています。
  • 禁止する:ToT をトレーニング セットとして使用することは固く禁止されています。
ToT.torrent
シーディング 1ダウンロード中 0完了 206総ダウンロード数 313
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています