@misc{Recski:2026, title={ACL-Verbatim: hallucination-free question answering for research}, author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács}, year={2026}, eprint={2605.21102}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.21102}, }

Utiliser ce jeu de données Discuter sur Discord

Date

il y a un jour

Organisation

URL du document

2605.21102

Licence

Apache 2.0

Balises

Réponse Aux Questions Intelligente

Traitement Du Langage Naturel

IA Générale

Génération De Code

Verbatim Spans est un jeu de données d'extraction de preuves conditionnelles par requêtes multi-domaines, publié en avril 2026 par l'Université technique de Vienne (TU Wien) en collaboration avec KRLabs. L'article de recherche associé est disponible ci-dessous : ACL-Verbatim : système de questions-réponses sans hallucinations pour la rechercheL'objectif est de construire un référentiel général pour l'entraînement des modèles d'extraction de preuves de conditions de requête, qui peuvent être largement utilisés dans la génération d'augmentation de la récupération (RAG) et les tâches de réponse aux questions extractives. Cet ensemble de données contient 174 383 lignes de données d’entraînement et 20 174 lignes de données de validation, couvrant trois grands types de corpus : articles sur le traitement automatique du langage naturel, réponses aux questions multidomaines et sorties de code et d’outils, correspondant respectivement aux tâches d’annotation de preuves au niveau du paragraphe, de la phrase et du bloc de code.

Source des données

ACL Silver : Ce corpus couvre les articles de recherche en traitement automatique du langage naturel (TALN) et utilise des normes d’annotation au niveau du paragraphe. Après nettoyage et filtrage, il contient 20 916 points de données d’entraînement et 2 319 points de données de validation, ne représentant qu’un sous-ensemble du corpus original.
RAGBench : Couvrant les domaines de la finance, de la santé, du droit et des questions-réponses en général, il utilise des normes d’annotation au niveau de la phrase et une version d’échantillonnage équilibré avec des restrictions de taille. L’ensemble de données final comprend 101 550 points de données d’entraînement et 15 276 points de données de validation.
Squeez : Couvre à la fois le code et la sortie de l'outil SWE-bench, en utilisant des spécifications d'annotation de blocs de code/plages de lignes, et extrait des données structurées à l'aide de 51 917 lignes de données d'entraînement et de 2 579 lignes de données de validation.

Citation

@misc{Recski:2026,
title={ACL-Verbatim: hallucination-free question answering for research},
author={Gábor Recski and Szilveszter Tóth and Nadia Verdha and István Boros and Ádám Kovács},
year={2026},
eprint={2605.21102},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.21102},
}

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Transition Climatique Et Énergétique Mondiale 2000-2026 : Ensemble De Données Mondial Sur Le Climat Et L’énergie

il y a un jour

Ensemble De Données d'évaluation De La Mémoire À Long Terme RHELM

dans 25 minutes

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

dans 25 minutes

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

il y a 2 heures

Graphique ChartNet : Compréhension Des Ensembles De Données Multimodaux

il y a 13 jours

Base De Données De Connaissances TACK Targeted Chimera

il y a 10 jours

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

il y a 13 jours

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

il y a un jour

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

il y a 14 jours

Ensemble De Données d'inférence Visuelle VisCoR-55K

il y a 21 jours

Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long

il y a 23 jours

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

il y a un mois

Ensemble De Données De Référence En Monde Réel Claw-Eval

il y a un mois

Ensemble De Données De Classification Des Maladies Du Fond d'œil

il y a un mois

Ensemble De Données Sur La Détection Des Feux De Forêt Et De La Fumée À Longue Distance

il y a un mois

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

il y a un mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un mois

Ensemble De Données d'amélioration De La Netteté Pancolor Par Télédétection À Grande Échelle

il y a 2 mois

Ensemble De Données De Référence Culturelles Latino-américaines CHOCLO

il y a 2 mois

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

il y a un jour

Organisation

URL du document

2605.21102

Licence

Apache 2.0

Balises

Réponse Aux Questions Intelligente

Traitement Du Langage Naturel

IA Générale

Génération De Code