HyperAIHyperAI

Command Palette

Search for a command to run...

DocFormer : Transformer d'extrémité à extrémité pour la compréhension de documents

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Résumé

Nous présentons DocFormer, une architecture basée sur les transformateurs multimodaux pour la tâche de compréhension visuelle de documents (Visual Document Understanding, VDU). La VDU constitue un problème difficile visant à comprendre des documents présentant des formats et dispositions variés (formulaire, reçus, etc.). En outre, DocFormer est pré-entraîné de manière non supervisée grâce à des tâches soigneusement conçues, qui favorisent l’interaction multimodale. DocFormer exploite des caractéristiques textuelles, visuelles et spatiales, et les combine à l’aide d’une nouvelle couche d’attention auto-associative multimodale. De plus, DocFormer partage des embeddings spatiaux appris entre les différentes modalités, ce qui facilite la corrélation entre les tokens textuels et visuels, et inversement. L’évaluation de DocFormer a été menée sur quatre jeux de données distincts, chacun disposant de modèles de référence solides. Les résultats montrent que DocFormer atteint l’état de l’art sur l’ensemble de ces jeux de données, surpassant parfois des modèles quatre fois plus volumineux (en nombre de paramètres).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp