HyperAI超神经

Test of Time，简称 ToT，是由谷歌 DeepMind 的研究人员于 2024 年推出的专门用于评估大语言模型时间推理能力的基准测试，从两个独立的维度分别考察了 LLM 的时间理解和算术能力。相关论文成果为「Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning」

ToT 的数据集分为三个子集：ToT-semantic 包含 1,850 个示例，ToT-arithmetic 包含 2,800 个示例，以及 ToT-semantic-large，包含 46,480 个示例，能够在更大的尺度上衡量时间理解的语义和逻辑。

数据格式

ToT-semantic 和 ToT-semantic-large 数据集包含以下字段：

question：包含问题的文本。

graph_gen_algorithm：图生成器算法的名称。

question_type：对应于数据集中的 7 种问题类型之一。

sorting_type：对应用于事实的排序类型。

prompt：包含用于评估 LLM 任务的完整提示文本。

label: 问题的标准答案。

而 ToT-arithmetic 数据集包含 question 、 question_type 和 label 三个字段。

数据源

ToT 是使用 NetworkX 等公共库合成生成的。

目的： ToT 主要设计用作测试集。
禁止：严禁使用 ToT 作为训练集。

Test of Time 大模型时间推理能力的基准测试数据集

数据格式

数据源