HyperAI超神经

Test of Time 大模型时间推理能力的基准测试数据集

日期

9 个月前

大小

41.76 MB

机构

DeepMind

发布地址

huggingface.co

许可协议

CC BY 4.0

Test of Time,简称 ToT,是由谷歌 DeepMind 的研究人员于 2024 年推出的专门用于评估大语言模型时间推理能力的基准测试,从两个独立的维度分别考察了 LLM 的时间理解和算术能力。相关论文成果为「Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

ToT 的数据集分为三个子集:ToT-semantic 包含 1,850 个示例,ToT-arithmetic 包含 2,800 个示例,以及 ToT-semantic-large,包含 46,480 个示例,能够在更大的尺度上衡量时间理解的语义和逻辑。

数据格式

ToT-semantic 和 ToT-semantic-large 数据集包含以下字段:

  • question:包含问题的文本。
  • graph_gen_algorithm:图生成器算法的名称。
  • question_type:对应于数据集中的 7 种问题类型之一。
  • sorting_type:对应用于事实的排序类型。
  • prompt:包含用于评估 LLM 任务的完整提示文本。
  • label: 问题的标准答案。

而 ToT-arithmetic 数据集包含 question 、 question_type 和 label 三个字段。

数据源

ToT 是使用 NetworkX 等公共库合成生成的。

  • 目的: ToT 主要设计用作测试集。
  • 禁止:严禁使用 ToT 作为训练集。
ToT.torrent
做种 1正在下载 0已完成 90总下载次数 108
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB