@misc{Recski:2026, title={ACL-Verbatim: hallucination-free question answering for research}, author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács}, year={2026}, eprint={2605.21102}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.21102}, }

日付

1日前

データセット構成

Paper URL

2605.21102

ライセンス

Apache 2.0

タグ

Verbatim Spansは、ウィーン工科大学がKRLabsと共同で2026年4月に公開した、マルチドメインクエリ条件付き証拠抽出データセットです。関連する研究論文は以下のとおりです。 ACL-Verbatim：研究のための幻覚のない質問応答システム本研究の目的は、クエリ条件証拠抽出モデルのトレーニングに関する一般的なベンチマークを構築することであり、これは検索拡張生成（RAG）や抽出型質問応答タスクで幅広く活用できる。このデータセットには、174,383行のトレーニングデータと20,174行の検証データが含まれており、自然言語処理論文、マルチドメイン質問応答、コードおよびツール出力という3つの主要なタイプのコーパスを網羅しています。これらはそれぞれ、段落レベル、文レベル、コードブロックレベルの証拠注釈タスクに対応しています。

データソース

ACLシルバー：段落レベルの注釈基準を用いて、自然言語処理（NLP）の研究論文を対象としています。クリーニングとフィルタリング後、20,916のトレーニングデータポイントと2,319の検証データポイントが含まれていますが、これは元のコーパスのごく一部にすぎません。
RAGBench：金融、医療、法律、および一般的な質問応答の分野を網羅し、文レベルのアノテーション基準と、上限制限付きのバランスの取れたサンプリングバージョンを使用しています。最終的なデータセットは、101,550個のトレーニングデータポイントと15,276個の検証データポイントで構成されています。
Squeez: コードブロック/行範囲の注釈仕様を使用して、コードとSWE-benchツールの出力の両方を対象とし、51,917行のトレーニングデータと2,579行の検証データを使用して構造化データを抽出します。

引用

@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用 Discordで議論

日付

1日前