Lisez avant de générer ! Une réponse à questions longue et fidèle par lecture automatique de machines

La question-réponse à longue forme (LFQA) vise à produire une réponse de longueur paragraphe pour une question donnée. Bien que les travaux actuels sur la LFQA utilisant des modèles pré-entraînés de grande taille pour la génération soient efficaces pour produire du contenu fluide et partiellement pertinent, un défi majeur réside dans la capacité à générer une réponse fidèle, c’est-à-dire avec une moindre quantité de contenus hallucinés. Nous proposons un nouveau cadre end-to-end qui modélise conjointement la génération de réponse et la lecture automatique de texte. L'idée centrale consiste à enrichir le modèle de génération avec des informations fines et pertinentes pour la réponse, pouvant être perçues comme une mise en avant des faits fiables. Des résultats d'état de l'art sur deux jeux de données LFQA, ELI5 et MS MARCO, démontrent l'efficacité de notre méthode par rapport à des modèles de référence forts, selon des métriques automatiques et d'évaluation humaine. Une analyse détaillée confirme en outre la capacité de notre approche à produire des réponses fluides, pertinentes et plus fidèles.