HyperAIHyperAI

Command Palette

Search for a command to run...

Verbatim Spans 查询条件证据提取数据集

日期

1 天前

数据集组织

论文 URL

2605.21102

许可证

Apache 2.0

Verbatim Spans 是由 TU Wien 联合 KRLabs 于 2026 年 4 月发布的一个多领域查询条件证据提取数据集,相关论文成果为 ACL-Verbatim: hallucination-free question answering for research,旨在构建一个通用的查询条件证据抽取模型训练基准,广泛应用于检索增强生成(RAG)及抽取式问答任务。 该数据集包含 174,383 行训练数据与 20,174 行验证数据,覆盖自然语言处理论文、多领域问答以及代码与工具输出三大类型语料,分别对应段落级、句子级与代码块级的证据标注任务。

数据来源

  • ACL silver:涵盖 NLP 研究论文,采用段落级标注规范,经过清洗与筛选后使用,最终包含 20,916 条训练数据与 2,319 条验证数据,仅为原始语料的子集版本
  • RAGBench:涵盖金融、医疗、法律及通用问答领域,句子级标注规范,采用经过 cap 限制后的平衡采样版本,最终合计 101,550 条训练数据与 15,276 条验证数据
  • Squeez:涵盖代码及 SWE-bench 工具输出,采用代码块 / 行范围标注规范,结构化抽取后采用 51,917 行训练数据与 2,579 行验证数据

Citation

@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供