HyperAIHyperAI
il y a 2 mois

Unification de la vision, du texte et de la mise en page pour le traitement universel des documents

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal
Unification de la vision, du texte et de la mise en page pour le traitement universel des documents
Résumé

Nous proposons Universal Document Processing (UDOP), un modèle fondamental d'IA pour les documents qui unifie les modalités texte, image et mise en page avec divers formats de tâches, y compris la compréhension et la génération de documents. UDOP exploite la corrélation spatiale entre le contenu textuel et l'image du document pour modéliser les modalités image, texte et mise en page avec une représentation uniforme. Grâce à un nouveau Transformers Vision-Texte-Mise en Page, UDOP unifie l'apprentissage préalable et les tâches en aval multidomaines dans un schéma de génération de séquences basé sur des prompts. UDOP est préentraîné à la fois sur de grands corpus de documents non étiquetés en utilisant des objectifs d'auto-supervision innovants et sur des données étiquetées variées. UDOP apprend également à générer des images de documents à partir des modalités texte et mise en page grâce à une reconstruction d'image masquée. À notre connaissance, c'est la première fois dans le domaine de l'IA pour les documents qu'un seul modèle atteint simultanément une édition neuronale de haute qualité et une personnalisation du contenu. Notre méthode établit l'état de l'art sur 8 tâches d'IA pour les documents, par exemple, la compréhension et les Q&R (QA) de documents, dans divers domaines de données tels que les rapports financiers, les articles académiques et les sites web. UDOP occupe la première place du classement du Benchmark de Compréhension des Documents.