Obstacles au progrès dans la réponse à des questions longues

La tâche de réponse à question à longue forme (LFQA) consiste à récupérer des documents pertinents par rapport à une question donnée, puis à les utiliser pour générer une réponse de longueur paragraphe. Bien que de nombreux modèles aient récemment été proposés pour la LFQA, nous montrons dans cet article que la formulation de cette tâche soulève des défis fondamentaux en matière d’évaluation et de création de jeux de données, qui entravent actuellement tout progrès significatif dans le domaine. Pour illustrer ces difficultés, nous concevons d’abord un nouveau système reposant sur une attention creuse et un apprentissage contrastif de récupération, permettant d’atteindre des performances de pointe sur le jeu de données ELI5 pour la LFQA. Bien que notre système figure en tête du classement public, une analyse détaillée révèle plusieurs tendances préoccupantes : (1) les réponses générées par notre système ne sont pas réellement ancrées dans les documents qu’il récupère ; (2) le jeu de données ELI5 présente un chevauchement important entre les ensembles d’entraînement et de validation, au moins 81 % des questions de validation apparaissant sous forme paraphrasée dans l’ensemble d’entraînement ; (3) le score ROUGE-L n’est pas un indicateur pertinent de la qualité des réponses générées et peut être facilement manipulé ; (4) les évaluations humaines utilisées pour d’autres tâches de génération de texte s’avèrent peu fiables dans le cadre de la LFQA. Nous proposons des pistes pour atténuer chacun de ces problèmes, dans l’espoir que ces recommandations conduiront à une recherche plus rigoureuse sur la LFQA et à des progrès véritablement significatifs à l’avenir.