HyperAIHyperAI
il y a 11 jours

DocFormer : Transformer d'extrémité à extrémité pour la compréhension de documents

Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha
DocFormer : Transformer d'extrémité à extrémité pour la compréhension de documents
Résumé

Nous présentons DocFormer, une architecture basée sur les transformateurs multimodaux pour la tâche de compréhension visuelle de documents (Visual Document Understanding, VDU). La VDU constitue un problème difficile visant à comprendre des documents présentant des formats et dispositions variés (formulaire, reçus, etc.). En outre, DocFormer est pré-entraîné de manière non supervisée grâce à des tâches soigneusement conçues, qui favorisent l’interaction multimodale. DocFormer exploite des caractéristiques textuelles, visuelles et spatiales, et les combine à l’aide d’une nouvelle couche d’attention auto-associative multimodale. De plus, DocFormer partage des embeddings spatiaux appris entre les différentes modalités, ce qui facilite la corrélation entre les tokens textuels et visuels, et inversement. L’évaluation de DocFormer a été menée sur quatre jeux de données distincts, chacun disposant de modèles de référence solides. Les résultats montrent que DocFormer atteint l’état de l’art sur l’ensemble de ces jeux de données, surpassant parfois des modèles quatre fois plus volumineux (en nombre de paramètres).

DocFormer : Transformer d'extrémité à extrémité pour la compréhension de documents | Articles de recherche récents | HyperAI