HyperAIHyperAI

Command Palette

Search for a command to run...

Unification de la vision, du texte et de la mise en page pour le traitement universel des documents

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

Résumé

Nous proposons Universal Document Processing (UDOP), un modèle fondamental d'IA pour les documents qui unifie les modalités texte, image et mise en page avec divers formats de tâches, y compris la compréhension et la génération de documents. UDOP exploite la corrélation spatiale entre le contenu textuel et l'image du document pour modéliser les modalités image, texte et mise en page avec une représentation uniforme. Grâce à un nouveau Transformers Vision-Texte-Mise en Page, UDOP unifie l'apprentissage préalable et les tâches en aval multidomaines dans un schéma de génération de séquences basé sur des prompts. UDOP est préentraîné à la fois sur de grands corpus de documents non étiquetés en utilisant des objectifs d'auto-supervision innovants et sur des données étiquetées variées. UDOP apprend également à générer des images de documents à partir des modalités texte et mise en page grâce à une reconstruction d'image masquée. À notre connaissance, c'est la première fois dans le domaine de l'IA pour les documents qu'un seul modèle atteint simultanément une édition neuronale de haute qualité et une personnalisation du contenu. Notre méthode établit l'état de l'art sur 8 tâches d'IA pour les documents, par exemple, la compréhension et les Q&R (QA) de documents, dans divers domaines de données tels que les rapports financiers, les articles académiques et les sites web. UDOP occupe la première place du classement du Benchmark de Compréhension des Documents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp