il y a 6 mois

Résumé

Nous présentons DocFormer, une architecture basée sur les transformateurs multimodaux pour la tâche de compréhension visuelle de documents (Visual Document Understanding, VDU). La VDU constitue un problème difficile visant à comprendre des documents présentant des formats et dispositions variés (formulaire, reçus, etc.). En outre, DocFormer est pré-entraîné de manière non supervisée grâce à des tâches soigneusement conçues, qui favorisent l’interaction multimodale. DocFormer exploite des caractéristiques textuelles, visuelles et spatiales, et les combine à l’aide d’une nouvelle couche d’attention auto-associative multimodale. De plus, DocFormer partage des embeddings spatiaux appris entre les différentes modalités, ce qui facilite la corrélation entre les tokens textuels et visuels, et inversement. L’évaluation de DocFormer a été menée sur quatre jeux de données distincts, chacun disposant de modèles de référence solides. Les résultats montrent que DocFormer atteint l’état de l’art sur l’ensemble de ces jeux de données, surpassant parfois des modèles quatre fois plus volumineux (en nombre de paramètres).

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension De Document

Multimodal

Transformer

Approche/Framework

Traitement Du Langage Naturel

Multimodal

Tâche

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension De Document

Multimodal

Transformer

Approche/Framework

Traitement Du Langage Naturel

Multimodal

Tâche

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

DocFormer : Transformer d'extrémité à extrémité pour la compréhension de documents

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DocFormer : Transformer d'extrémité à extrémité pour la compréhension de documents

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DocFormer : Transformer d'extrémité à extrémité pour la compréhension de documents

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters