Command Palette
Search for a command to run...
T2S-Bench 与思维结构:综合文本到结构推理的基准测试与提示方法
T2S-Bench 与思维结构:综合文本到结构推理的基准测试与提示方法
摘要
人类在处理复杂阅读任务时,会主动标记关键信息、推断其相互关系,并构建信息结构以引导理解与响应。受此启发,大语言模型是否能通过利用文本结构来提升文本处理能力?为此,本研究首先提出“思维结构”(Structure of Thought, SoT)这一提示技术,该技术显式引导模型构建中间文本结构,在八项任务及三个模型家族中均实现了性能的一致提升。基于这一发现,我们进一步推出了 T2S-Bench——首个旨在评估并提升模型“文本到结构”(text-to-structure)转换能力的基准测试集。T2S-Bench 涵盖六大科学领域与三十二种结构类型,共包含 1,800 个样本,其构建过程严格遵循准确性、公平性与高质量标准。对 45 个主流模型的评估结果表明,当前模型在该能力上仍存在显著提升空间:多跳推理任务的平均准确率仅为 52.1%,而最先进的模型在端到端节点抽取任务中的准确率也仅达到 58.1%。此外,在 Qwen2.5-7B-Instruct 模型上,仅采用 SoT 提示即可在八项多样化文本处理任务中实现平均 5.7% 的性能提升;若进一步基于 T2S-Bench 进行微调,该提升幅度可增至 8.6%。上述结果凸显了显式文本结构化的重要价值,以及 SoT 与 T2S-Bench 之间的互补贡献。相关数据集与评估代码已开源,访问地址为:https://t2s-bench.github.io/T2S-Bench-Page/。
一句话总结
来自杜克大学、德克萨斯大学奥斯汀分校和 Meta 的研究人员提出了“思维结构”(Structure of Thought, SoT),这是一种引导模型构建中间文本结构的提示技术;同时推出了 T2S-Bench,这是首个针对“文本到结构”能力的基准测试。该方法在多样化的科学领域和推理任务中显著提升了性能。
主要贡献
- 当前的大语言模型由于缺乏稳定的中间表示,在处理复杂文本时面临困难,这促使我们需要一种在生成答案之前对信息进行结构化处理的通用方法。
- 作者介绍了“思维结构”(SoT),这是一种引导模型构建中间文本结构的提示技术,以及 T2S-Bench,这是首个包含 1.8K 个样本、覆盖六个科学领域的基准测试,用于评估此类能力。
- 对 45 个主流模型的评估揭示了显著的性能差距;实验表明,仅使用 SoT 即可将准确率提高 5.7%,而在新基准上进行微调后,各项任务的增益进一步提升至 8.6%。
引言
大语言模型正越来越多地部署于科学文献综述和基于证据的决策等关键工作流中,但由于依赖不稳定的端到端生成且缺乏稳定的中间表示,它们往往难以应对复杂、长上下文的任务。此前试图通过结构化推理或特定任务提取模块来提升性能的努力,未能泛化到多样化的文本类型,且缺乏统一的评估框架。为填补这些空白,作者提出了“思维结构”(SoT),这是一种引导模型在回答前显式构建中间文本结构的提示技术;同时推出了 T2S-Bench,这是首个旨在评估和提升跨多个科学领域“文本到结构”能力的综合性基准测试。
数据集
T2S-Bench 数据集概览
作者推出了 T2S-Bench,这是一个旨在利用高质量学术资源评估和训练模型“文本到结构”能力的综合性数据集。其构建过程通过利用经过严格验证的科学图表及其对应文本来解决验证挑战。
-
数据集构成与来源
- 主要数据源涵盖六个主要科学领域的学术论文:计算机科学、生命科学、社会科学、环境科学、经济与管理科学以及物理科学。
- 数据集覆盖 17 个子学科和 32 种不同的结构类型,确保了广泛的主题多样性。
- 所有文本 - 结构对均源自由作者精心设计并经同行评审员验证的真实世界图表。
-
各子集的关键细节
- T2S-Bench-MR(多跳推理): 包含约 1,700 个高质量的“文本 - 结构 - 问题”三元组。每个条目包括一段文本、一张参考图表以及一个需要多步推理的选择题。问题分为四类:故障定位、功能映射、边界测试和反事实推理。
- T2S-Bench-E2E(端到端提取): 由 87 个经过严格审查的“文本 - 关键结构”对组成。该子集专注于提取关键节点和链接,同时过滤噪声,并控制图复杂度以确保公平评估。
- T2S-Train: 从收集的数据中导出的 1,200 个“指令 - 答案”对训练集,用于微调具备结构感知能力的模型。
-
数据使用与处理
- 构建流程: 作者采用了一个包含四个模块的自动化流程,涉及论文搜索、PDF 下载、图表裁剪以及使用 GPT-5.2 和 Gemini-2.5-Pro 等先进模型进行的结构有效性检查。
- 人工验证: 由博士级专家进行三轮人工筛选以确保质量。第一轮去除噪声图表,第二轮验证问题的可解性和逻辑性,第三轮确认文本与关键结构之间的一致性。
- 划分策略: 最终基准测试采用按领域分层的 7:3 划分。测试集(T2S-Bench-MR)包含 500 个样本用于选择题评估,而 E2E 集则单独保留用于结构提取任务。
- 评估指标: 对于选择题任务,作者使用精确匹配(EM)和 F1 分数。对于 E2E 任务,他们通过平均语义相似度评估节点提取,并通过预测链接对的 F1 分数评估链接提取。
-
裁剪与元数据细节
- 图表裁剪: 使用
pdffigures2从 PDF 中提取图表,并由 GPT-4o 验证以确认结构相关性,随后再进行进一步处理。 - 文本分段: 该流程确保每个结构图表至少对应三个清晰的文本片段,并明确标识起始和结束句子。
- 部分约束策略: 为了解决 E2E 任务中的一对多映射问题,作者分别评估节点和链接。模型要么接收所有节点信息以预测链接,要么接收所有链接信息以预测节点,从而标准化输出以进行准确评估。
- 图表裁剪: 使用
方法
作者提出了一套构建 T2S(文本到结构)数据集的系统化流程,旨在评估基于结构图表的多跳推理能力。如框架图所示,整体工作流程包含三个主要阶段:样本收集、T2S 多跳推理数据集构建以及 T2S-Bench-E2E 构建。

在样本收集阶段,系统在包括计算机、生命科学和社会科学在内的多个领域搜索学术论文。系统识别结构图表,下载相应的 PDF,并执行自动化有效性检查,以确保图表可以表示为连接的节点 - 链接图。随后应用人工过滤器以验证实体引用和图表质量,最终形成一组经过策划的高质量文本 - 结构对。
数据集构建阶段依赖于基于模板的方法来生成推理问题。如下图所示:
作者定义了一组特定的反事实推理模板,标记为 CR-1 至 CR-8,用于指导生成涉及移除边、翻转极性或禁用反馈循环等操作的问题。类似的模板也被用于故障定位和功能映射任务。这些模板确保生成的问题需要多步结构推理,而非简单的信息检索。
为了执行这些复杂任务,系统采用了一种具有先进内存管理能力的基于大语言模型(LLM)的架构。有关详细组件布局,请参阅系统架构图。
该架构包含一个与归档存储交互的函数执行器,以及一个处理提示令牌 FIFO 队列的队列管理器。这种设计使系统能够维护上下文并管理如论文搜索和模式规范化等长时间运行的进程。该流程还纳入了严格的质量控制步骤,包括用于正确性和文本依赖性的模型检查,随后是人工过滤器以确保满足节点和链接约束。
最后,评估过程利用针对 API 模型的特定提示契约。系统对选择题问答强制执行严格的输出模式,并采用两阶段提示进行结构评估:一个用于节点标注,另一个用于链接提取。这确保了在基准测试期间对模型响应的稳健解析。
实验
- “思维结构”(SoT)提示策略与直接回答和思维链(Chain of Thought)方法进行了对比评估,结果证实,显式强制模型将文本结构化节点和链接,能显著提升各类文本处理任务及不同模型家族的性能。
- 在 T2S-Bench 上对 45 个模型的基准测试显示,尽管专有模型目前领先,但经过指令微调的开源模型正在迅速缩小差距;不过,所有模型在识别正确节点方面都比链接节点更为困难。
- 微调实验表明,增强模型提取文本结构的能力直接转化为下游长上下文推理任务的性能提升,证实了结构理解是有效多跳推理的基本前提。
- 对结构复杂度的分析显示,随着图中节点数量的增加,模型准确率急剧下降,表明当前系统缺乏处理高度复杂结构关系的可扩展性。
- 相关性研究证实,模型执行“文本到结构”提取的能力与其通用长上下文推理能力之间存在强烈的正相关关系,这表明结构化思维是推理能力的普遍指标。