Construction de jeux de données pour la compréhension de lecture en plusieurs étapes à travers les documents

La plupart des méthodes de compréhension de la lecture se limitent aux requêtes qui peuvent être répondues à l'aide d'une seule phrase, paragraphe ou document. Permettre aux modèles de combiner des éléments de preuve textuelle disjoints étendrait la portée des méthodes de compréhension machine, mais actuellement, il n'existe aucune ressource pour former et tester cette capacité. Nous proposons une nouvelle tâche visant à encourager le développement de modèles pour la compréhension du texte à travers plusieurs documents et à investiguer les limites des méthodes existantes. Dans notre tâche, un modèle apprend à rechercher et à combiner des preuves – effectuant ainsi une inférence en plusieurs étapes (alias multi-hop). Nous élaborons une méthodologie pour produire des jeux de données adaptés à cette tâche, en partant d'une collection de paires requête-réponse et de documents thématiquement liés. Deux jeux de données issus de domaines différents sont générés, et nous identifions les pièges potentiels tout en élaborant des stratégies d'atténuation. Nous évaluons deux modèles compétitifs proposés précédemment et constatons qu'un seul est capable d'intégrer des informations provenant de plusieurs documents. Cependant, les deux modèles peinent à sélectionner des informations pertinentes, car leur performance s'améliore considérablement lorsque les documents fournis sont garantis comme étant pertinents. Bien que ces modèles surpassent plusieurs lignes de base solides, leur meilleure précision atteint 42,9 % contre 74,0 % pour la performance humaine – ce qui laisse un vaste champ d'amélioration.