Command Palette
Search for a command to run...
Ensemble De Données d'extraction De Preuves De Condition De Requête Verbatim Spans
Date
URL du document
Licence
Apache 2.0
Verbatim Spans est un jeu de données d'extraction de preuves conditionnelles par requêtes multi-domaines, publié en avril 2026 par l'Université technique de Vienne (TU Wien) en collaboration avec KRLabs. L'article de recherche associé est disponible ci-dessous : ACL-Verbatim : système de questions-réponses sans hallucinations pour la rechercheL'objectif est de construire un référentiel général pour l'entraînement des modèles d'extraction de preuves de conditions de requête, qui peuvent être largement utilisés dans la génération d'augmentation de la récupération (RAG) et les tâches de réponse aux questions extractives. Cet ensemble de données contient 174 383 lignes de données d’entraînement et 20 174 lignes de données de validation, couvrant trois grands types de corpus : articles sur le traitement automatique du langage naturel, réponses aux questions multidomaines et sorties de code et d’outils, correspondant respectivement aux tâches d’annotation de preuves au niveau du paragraphe, de la phrase et du bloc de code.
Source des données
- ACL Silver : Ce corpus couvre les articles de recherche en traitement automatique du langage naturel (TALN) et utilise des normes d’annotation au niveau du paragraphe. Après nettoyage et filtrage, il contient 20 916 points de données d’entraînement et 2 319 points de données de validation, ne représentant qu’un sous-ensemble du corpus original.
- RAGBench : Couvrant les domaines de la finance, de la santé, du droit et des questions-réponses en général, il utilise des normes d’annotation au niveau de la phrase et une version d’échantillonnage équilibré avec des restrictions de taille. L’ensemble de données final comprend 101 550 points de données d’entraînement et 15 276 points de données de validation.
- Squeez : Couvre à la fois le code et la sortie de l'outil SWE-bench, en utilisant des spécifications d'annotation de blocs de code/plages de lignes, et extrait des données structurées à l'aide de 51 917 lignes de données d'entraînement et de 2 579 lignes de données de validation.
Citation
@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.