il y a 8 mois

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

Résumé

Nous proposons Universal Document Processing (UDOP), un modèle fondamental d'IA pour les documents qui unifie les modalités texte, image et mise en page avec divers formats de tâches, y compris la compréhension et la génération de documents. UDOP exploite la corrélation spatiale entre le contenu textuel et l'image du document pour modéliser les modalités image, texte et mise en page avec une représentation uniforme. Grâce à un nouveau Transformers Vision-Texte-Mise en Page, UDOP unifie l'apprentissage préalable et les tâches en aval multidomaines dans un schéma de génération de séquences basé sur des prompts. UDOP est préentraîné à la fois sur de grands corpus de documents non étiquetés en utilisant des objectifs d'auto-supervision innovants et sur des données étiquetées variées. UDOP apprend également à générer des images de documents à partir des modalités texte et mise en page grâce à une reconstruction d'image masquée. À notre connaissance, c'est la première fois dans le domaine de l'IA pour les documents qu'un seul modèle atteint simultanément une édition neuronale de haute qualité et une personnalisation du contenu. Notre méthode établit l'état de l'art sur 8 tâches d'IA pour les documents, par exemple, la compréhension et les Q&R (QA) de documents, dans divers domaines de données tels que les rapports financiers, les articles académiques et les sites web. UDOP occupe la première place du classement du Benchmark de Compréhension des Documents.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension De Document

Any-to-Any

Multimodal

Traitement Du Langage Naturel

Multimodal

Tâche

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension De Document

Any-to-Any

Multimodal

Traitement Du Langage Naturel

Multimodal

Tâche

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Unification de la vision, du texte et de la mise en page pour le traitement universel des documents

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Unification de la vision, du texte et de la mise en page pour le traitement universel des documents

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Unification de la vision, du texte et de la mise en page pour le traitement universel des documents

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters