VisualMRC : Compréhension de lecture automatique sur des images de documents

Les études récentes sur la compréhension de lecture par machine se sont concentrées sur la compréhension au niveau du texte, mais n’ont pas encore atteint le niveau de compréhension humaine concernant la mise en page visuelle et le contenu des documents du monde réel. Dans cette étude, nous introduisons un nouveau jeu de données pour la compréhension de lecture par machine visuelle, nommé VisualMRC, dans lequel, étant donné une question et une image de document, une machine doit lire et comprendre les textes présents dans l’image afin de répondre à la question en langage naturel. Contrairement aux jeux de données existants de question-réponse visuelle (VQA) qui incluent des textes dans les images, VisualMRC se concentre davantage sur le développement des capacités de compréhension et de génération de langage naturel. Il comprend plus de 30 000 paires constituées d’une question et d’une réponse abstraite, associées à plus de 10 000 images de documents provenant de divers domaines de pages web. Nous proposons également un nouveau modèle qui étend les modèles séquence-à-séquence existants, pré-entraînés sur de grandes corpora de texte, en intégrant à la fois la mise en page visuelle et le contenu des documents. Les expériences menées sur VisualMRC montrent que ce modèle surpasse les modèles de base séquence-à-séquence ainsi qu’un modèle VQA de pointe. Toutefois, ses performances restent inférieures à celles des humains sur la plupart des métriques d’évaluation automatique. Ce jeu de données facilitera les recherches visant à relier la compréhension visuelle et la compréhension du langage.