HyperAIHyperAI
il y a 17 jours

FQuAD : Jeu de données de réponse à des questions en français

Martin d&#39, Hoffschmidt, Wacim Belblidia, Tom Brendlé, Quentin Heinrich, Maxime Vidal
FQuAD : Jeu de données de réponse à des questions en français
Résumé

Les avancées récentes dans le domaine de la modélisation du langage ont permis d’améliorer les résultats de pointe sur de nombreuses tâches de traitement du langage naturel. Parmi celles-ci, la compréhension de lecture a connu des progrès significatifs au cours des dernières années. Toutefois, la plupart des résultats sont rapportés en anglais, car les ressources étiquetées disponibles dans d’autres langues, comme le français, restent rares. Dans ce travail, nous introduisons le French Question Answering Dataset (FQuAD), un ensemble de données natif en français pour la compréhension de lecture, comprenant des questions et leurs réponses basées sur un ensemble d’articles Wikipedia. La version 1.0 du dataset contient plus de 25 000 échantillons, tandis que la version 1.1 en regroupe plus de 60 000. Nous entraînons un modèle de référence qui atteint un score F1 de 92,2 et un taux de correspondance exacte de 82,1 sur l’ensemble de test. Afin de suivre l’évolution des modèles de réponse aux questions en français, nous proposons un classement (leaderboard) et avons mis gratuitement à disposition la version 1.0 de notre dataset à l’adresse suivante : https://illuin-tech.github.io/FQuAD-explorer/.

FQuAD : Jeu de données de réponse à des questions en français | Articles de recherche récents | HyperAI