R2-D2 : Une base modulaire pour la réponse à des questions dans un domaine ouvert

Ce travail présente une nouvelle pipeline de question-réponse à domaine ouvert en quatre étapes, nommée R2-D2 (Rank twice, reaD twice). La pipeline est composée d’un module de récupération (retriever), d’un rerankeur de passages, d’un lecteur extraitif, d’un lecteur générique, ainsi que d’un mécanisme d’agrégation qui combine les prédictions finales issues de tous les composants du système. Nous démontrons son efficacité sur trois jeux de données de question-réponse à domaine ouvert : NaturalQuestions, TriviaQA et EfficientQA, dépassant l’état de l’art sur les deux premiers. Notre analyse révèle que : (i) l’association d’un lecteur extraitif et d’un lecteur générique permet d’obtenir des améliorations absolues allant jusqu’à 5 points de exact match, et que cette approche est au moins deux fois plus efficace que l’ensemble par moyennage a posteriori des mêmes modèles avec des paramètres différents ; (ii) un lecteur extraitif à nombre réduit de paramètres peut atteindre une performance équivalente à celle du lecteur générique sur les jeux de données de question-réponse extraitives.