HyperAI超神经

Test of Time 大模型时间推理能力的基准测试数据集

日期

10 个月前

大小

41.76 MB

机构

DeepMind

发布地址

huggingface.co

许可协议

CC BY 4.0

Test of Time,简称 ToT,是由谷歌 DeepMind 的研究人员于 2024 年推出的专门用于评估大语言模型时间推理能力的基准测试,从两个独立的维度分别考察了 LLM 的时间理解和算术能力。相关论文成果为「Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

ToT 的数据集分为三个子集:ToT-semantic 包含 1,850 个示例,ToT-arithmetic 包含 2,800 个示例,以及 ToT-semantic-large,包含 46,480 个示例,能够在更大的尺度上衡量时间理解的语义和逻辑。

数据格式

ToT-semantic 和 ToT-semantic-large 数据集包含以下字段:

  • question:包含问题的文本。
  • graph_gen_algorithm:图生成器算法的名称。
  • question_type:对应于数据集中的 7 种问题类型之一。
  • sorting_type:对应用于事实的排序类型。
  • prompt:包含用于评估 LLM 任务的完整提示文本。
  • label: 问题的标准答案。

而 ToT-arithmetic 数据集包含 question 、 question_type 和 label 三个字段。

数据源

ToT 是使用 NetworkX 等公共库合成生成的。

  • 目的: ToT 主要设计用作测试集。
  • 禁止:严禁使用 ToT 作为训练集。
ToT.torrent
做种 2正在下载 0已完成 96总下载次数 115
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB