HyperAIHyperAI

Command Palette

Search for a command to run...

Passer à fond au boogie sur la compréhension des documents grâce au transformateur texte-image-disposition

Rafał Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michał Pietruszka Gabriela Pałka

Résumé

Nous abordons le problème complexe de la compréhension du langage naturel au-delà des documents en texte brut en introduisant l’architecture neuronale TILT, qui apprend simultanément les informations de mise en page, les caractéristiques visuelles et les sémantiques textuelles. Contrairement aux approches antérieures, nous nous appuyons sur un décodeur capable d’unifier une variété de problèmes impliquant le langage naturel. La mise en page est représentée sous la forme d’un biais d’attention et complétée par des informations visuelles contextualisées, tandis que le cœur de notre modèle repose sur un Transformer préentraîné encodeur-décodeur. Notre approche novatrice atteint des résultats de pointe dans l’extraction d’informations à partir de documents et la réponse à des questions exigeant une compréhension de la mise en page (DocVQA, CORD, SROIE). En même temps, nous simplifions le processus en utilisant un modèle end-to-end.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Passer à fond au boogie sur la compréhension des documents grâce au transformateur texte-image-disposition | Articles | HyperAI