@misc{Recski:2026, title={ACL-Verbatim: hallucination-free question answering for research}, author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács}, year={2026}, eprint={2605.21102}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.21102}, }

日期

1 天前

数据集组织

论文 URL

2605.21102

许可证

Apache 2.0

标签

Verbatim Spans 是由 TU Wien 联合 KRLabs 于 2026 年 4 月发布的一个多领域查询条件证据提取数据集，相关论文成果为 ACL-Verbatim: hallucination-free question answering for research，旨在构建一个通用的查询条件证据抽取模型训练基准，广泛应用于检索增强生成（RAG）及抽取式问答任务。该数据集包含 174,383 行训练数据与 20,174 行验证数据，覆盖自然语言处理论文、多领域问答以及代码与工具输出三大类型语料，分别对应段落级、句子级与代码块级的证据标注任务。

数据来源

ACL silver：涵盖 NLP 研究论文，采用段落级标注规范，经过清洗与筛选后使用，最终包含 20,916 条训练数据与 2,319 条验证数据，仅为原始语料的子集版本
RAGBench：涵盖金融、医疗、法律及通用问答领域，句子级标注规范，采用经过 cap 限制后的平衡采样版本，最终合计 101,550 条训练数据与 15,276 条验证数据
Squeez：涵盖代码及 SWE-bench 工具输出，采用代码块 / 行范围标注规范，结构化抽取后采用 51,917 行训练数据与 2,579 行验证数据

Citation

@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期