HyperAI
Command Palette
Search for a command to run...
Verbatim Spans 查询条件证据提取数据集
Verbatim Spans 是由 TU Wien 联合 KRLabs 于 2026 年 4 月发布的一个多领域查询条件证据提取数据集,相关论文成果为 ACL-Verbatim: hallucination-free question answering for research,旨在构建一个通用的查询条件证据抽取模型训练基准,广泛应用于检索增强生成(RAG)及抽取式问答任务。 该数据集包含 174,383 行训练数据与 20,174 行验证数据,覆盖自然语言处理论文、多领域问答以及代码与工具输出三大类型语料,分别对应段落级、句子级与代码块级的证据标注任务。
数据来源
- ACL silver:涵盖 NLP 研究论文,采用段落级标注规范,经过清洗与筛选后使用,最终包含 20,916 条训练数据与 2,319 条验证数据,仅为原始语料的子集版本
- RAGBench:涵盖金融、医疗、法律及通用问答领域,句子级标注规范,采用经过 cap 限制后的平衡采样版本,最终合计 101,550 条训练数据与 15,276 条验证数据
- Squeez:涵盖代码及 SWE-bench 工具输出,采用代码块 / 行范围标注规范,结构化抽取后采用 51,917 行训练数据与 2,579 行验证数据
Citation
@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。