HyperAIHyperAI

Command Palette

Search for a command to run...

逐語的スパンクエリ条件証拠抽出データセット

日付

1日前

データセット構成

Paper URL

2605.21102

ライセンス

Apache 2.0

Verbatim Spansは、ウィーン工科大学がKRLabsと共同で2026年4月に公開した、マルチドメインクエリ条件付き証拠抽出データセットです。関連する研究論文は以下のとおりです。 ACL-Verbatim:研究のための幻覚のない質問応答システム本研究の目的は、クエリ条件証拠抽出モデルのトレーニングに関する一般的なベンチマークを構築することであり、これは検索拡張生成(RAG)や抽出型質問応答タスクで幅広く活用できる。 このデータセットには、174,383行のトレーニングデータと20,174行の検証データが含まれており、自然言語処理論文、マルチドメイン質問応答、コードおよびツール出力という3つの主要なタイプのコーパスを網羅しています。これらはそれぞれ、段落レベル、文レベル、コードブロックレベルの証拠注釈タスクに対応しています。

データソース

  • ACLシルバー:段落レベルの注釈基準を用いて、自然言語処理(NLP)の研究論文を対象としています。クリーニングとフィルタリング後、20,916のトレーニングデータポイントと2,319の検証データポイントが含まれていますが、これは元のコーパスのごく一部にすぎません。
  • RAGBench:金融、医療、法律、および一般的な質問応答の分野を網羅し、文レベルのアノテーション基準と、上限制限付きのバランスの取れたサンプリングバージョンを使用しています。最終的なデータセットは、101,550個のトレーニングデータポイントと15,276個の検証データポイントで構成されています。
  • Squeez: コードブロック/行範囲の注釈仕様を使用して、コードとSWE-benchツールの出力の両方を対象とし、51,917行のトレーニングデータと2,579行の検証データを使用して構造化データを抽出します。

引用

@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています