Command Palette

Search for a command to run...

大規模モデルの時間的推論機能のための時間のテスト ベンチマーク テスト データ セット

日付

1年前

サイズ

41.76 MB

組織

ディープマインド

論文URL

arxiv.org

ライセンス

CC BY 4.0

ToT と呼ばれる Test of Time は、特に大規模言語モデルの時間的推論能力を評価するために、Google DeepMind の研究者によって 2024 年に開始されたベンチマーク テストであり、LLM の時間的理解と演算能力を 2 つの独立した次元から検査します。関連する論文結果は「時の試練: 時間的推論に関する LLM を評価するためのベンチマーク

ToT のデータセットは 3 つのサブセットに分割されています。ToT-semantic には 1,850 の例が含まれ、ToT-arithmetic には 2,800 の例が含まれ、ToT-semantic-large には 46,480 の例が含まれており、より大規模なデータで時間的理解のセマンティクスを測定できます。スケールとロジック。

データ形式

ToT-semantic および ToT-semantic-large データセットには、次のフィールドが含まれています。

  • question: 質問のテキストが含まれます。
  • graph_gen_algorithm: グラフ生成アルゴリズムの名前。
  • question_type: データセット内の 7 つの質問タイプの 1 つに対応します。
  • sort_type: ファクトに適用される並べ替えタイプに対応します。
  • プロンプト: LLM タスクを評価するための完全なプロンプト テキストが含まれます。
  • ラベル: 質問に対する標準的な回答。

ToT 算術データ セットには、question、question_type、および label の 3 つのフィールドが含まれています。

データソース

ToT は、NetworkX などのパブリック ライブラリを使用して合成的に生成されます。

  • 目的: ToT は主にテスト セットとして使用するように設計されています。
  • 禁止する:ToT をトレーニング セットとして使用することは固く禁止されています。
ToT.torrent
シーディング 1ダウンロード中 0ダウンロード完了 194総ダウンロード数 285
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
大規模モデルの時間的推論機能のための時間のテスト ベンチマーク テスト データ セット | データセット | HyperAI超神経