Test of Time 大模型时间推理能力的基准测试数据集
Test of Time,简称 ToT,是由谷歌 DeepMind 的研究人员于 2024 年推出的专门用于评估大语言模型时间推理能力的基准测试,从两个独立的维度分别考察了 LLM 的时间理解和算术能力。相关论文成果为「Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning」
ToT 的数据集分为三个子集:ToT-semantic 包含 1,850 个示例,ToT-arithmetic 包含 2,800 个示例,以及 ToT-semantic-large,包含 46,480 个示例,能够在更大的尺度上衡量时间理解的语义和逻辑。
数据格式
ToT-semantic 和 ToT-semantic-large 数据集包含以下字段:
- question:包含问题的文本。
- graph_gen_algorithm:图生成器算法的名称。
- question_type:对应于数据集中的 7 种问题类型之一。
- sorting_type:对应用于事实的排序类型。
- prompt:包含用于评估 LLM 任务的完整提示文本。
- label: 问题的标准答案。
而 ToT-arithmetic 数据集包含 question 、 question_type 和 label 三个字段。
数据源
ToT 是使用 NetworkX 等公共库合成生成的。
- 目的: ToT 主要设计用作测试集。
- 禁止:严禁使用 ToT 作为训练集。
ToT.torrent
做种 1正在下载 0已完成 90总下载次数 108