JaQuAD : Jeu de données de réponse à des questions japonais pour la compréhension de lecture par machine

La réponse aux questions (QA) est une tâche dans laquelle une machine comprend un document donné et une question afin d’en extraire une réponse. Malgré les progrès remarquables réalisés dans le domaine du traitement automatique du langage (NLP), la QA reste un problème complexe, particulièrement pour les langues autres que l’anglais, en raison du manque de jeux de données annotés. Dans cet article, nous présentons le Jeu de données japonais de réponse aux questions, JaQuAD, qui a été annoté par des humains. JaQuAD comprend 39 696 paires de questions-réponses extraitives issues d’articles de Wikipedia japonais. Nous avons finement ajusté un modèle de base, atteignant un score F1 de 78,92 % et un score EM de 63,38 % sur l’ensemble de test. Le jeu de données ainsi que nos expérimentations sont disponibles à l’adresse suivante : https://github.com/SkelterLabsInc/JaQuAD.