Passer à fond au boogie sur la compréhension des documents grâce au transformateur texte-image-disposition

Nous abordons le problème complexe de la compréhension du langage naturel au-delà des documents en texte brut en introduisant l’architecture neuronale TILT, qui apprend simultanément les informations de mise en page, les caractéristiques visuelles et les sémantiques textuelles. Contrairement aux approches antérieures, nous nous appuyons sur un décodeur capable d’unifier une variété de problèmes impliquant le langage naturel. La mise en page est représentée sous la forme d’un biais d’attention et complétée par des informations visuelles contextualisées, tandis que le cœur de notre modèle repose sur un Transformer préentraîné encodeur-décodeur. Notre approche novatrice atteint des résultats de pointe dans l’extraction d’informations à partir de documents et la réponse à des questions exigeant une compréhension de la mise en page (DocVQA, CORD, SROIE). En même temps, nous simplifions le processus en utilisant un modèle end-to-end.