Débruitage de la question-réponse ouverte à domaine distantement supervisée

La question réponse à domaine ouvert supervisée à distance (DS-QA) vise à extraire des réponses à partir de collections de textes non étiquetés. Les modèles DS-QA existants récupèrent généralement des paragraphes pertinents à partir d’un grand corpus et appliquent une technique de compréhension de lecture pour extraire les réponses à partir du paragraphe le plus pertinent. Toutefois, ils négligent l’information riche contenue dans les autres paragraphes. En outre, les données obtenues par supervision à distance sont inévitablement sujettes à des erreurs d’étiquetage, et ces données bruitées dégradent considérablement les performances des modèles DS-QA. Pour remédier à ces problèmes, nous proposons un nouveau modèle DS-QA qui utilise un sélectionneur de paragraphes pour éliminer les paragraphes bruyants, ainsi qu’un lecteur de paragraphes pour extraire la réponse correcte à partir des paragraphes ainsi débruités. Les résultats expérimentaux sur des jeux de données du monde réel montrent que notre modèle parvient à exploiter efficacement les informations utiles contenues dans les données bruitées et obtient des améliorations significatives par rapport à tous les modèles de référence.