FQuAD: Französisches Frage-Antwort-Datensatz

In den letzten Jahren haben Fortschritte im Bereich der Sprachmodellierung die bisher besten Ergebnisse vieler Aufgaben im Bereich des Natural Language Processing (NLP) erheblich verbessert. Unter diesen Aufgaben hat sich die Leseverständnis-Aufgabe (Reading Comprehension) in den vergangenen Jahren besonders weiterentwickelt. Allerdings werden die meisten Ergebnisse bisher auf Englisch berichtet, da annotierte Ressourcen in anderen Sprachen, wie zum Beispiel Französisch, weiterhin rar sind. In dieser Arbeit stellen wir den French Question Answering Dataset (FQuAD) vor. FQuAD ist ein französischsprachiges, natives Leseverständnis-Dataset, das aus Fragen und Antworten zu einer Reihe von Wikipedia-Artikeln besteht. Die Version 1.0 umfasst über 25.000 Stichproben, die Version 1.1 über 60.000 Stichproben. Wir trainieren ein Basismodell, das auf dem Testset einen F1-Score von 92,2 und eine exakte Übereinstimmungsrate (exact match ratio) von 82,1 erreicht. Um den Fortschritt von Modellen für die französische Fragebeantwortung nachzuverfolgen, schlagen wir eine Leaderboard-Liste vor, und wir stellen die Version 1.0 unseres Datensatzes kostenlos unter https://illuin-tech.github.io/FQuAD-explorer/ zur Verfügung.