il y a 8 mois

Résumé

L'Image Transformer a récemment réalisé des progrès significatifs dans la compréhension des images naturelles, que ce soit en utilisant des techniques d'entraînement supervisé (ViT, DeiT, etc.) ou non supervisé (BEiT, MAE, etc.). Dans cet article, nous proposons \textbf{DiT}, un modèle de \textbf{D}ocument \textbf{I}mage \textbf{T}ransformer pré-entraîné de manière non supervisée, utilisant des images textuelles à grande échelle non étiquetées pour les tâches de Document AI. Cette approche est essentielle car il n'existe aucun équivalent supervisé en raison du manque d'images de documents étiquetées par des humains. Nous utilisons DiT comme réseau principal dans diverses tâches de Document AI basées sur la vision, telles que la classification d'images de documents, l'analyse de mise en page de documents, la détection de tables ainsi que la détection de texte pour l'OCR. Les résultats expérimentaux ont montré que le modèle DiT pré-entraîné de manière non supervisée atteint de nouveaux résultats d'état de l'art sur ces tâches en aval, par exemple : classification d'images de documents (91.11 $\rightarrow$ 92.69), analyse de mise en page de documents (91.0 $\rightarrow$ 94.9), détection de tables (94.23 $\rightarrow$ 96.55) et détection de texte pour l'OCR (93.07 $\rightarrow$ 94.29). Le code et les modèles pré-entraînés sont disponibles au public à l'adresse \url{https://aka.ms/msdit}.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Compréhension De Document

Apprentissage Multi-tâches

Approche/Framework

Traitement Du Langage Naturel

Tâche

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Compréhension De Document

Apprentissage Multi-tâches

Approche/Framework

Traitement Du Langage Naturel

Tâche

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

DiT : Pré-entraînement auto-supervisé pour le Document Image Transformer

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DiT : Pré-entraînement auto-supervisé pour le Document Image Transformer

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DiT : Pré-entraînement auto-supervisé pour le Document Image Transformer

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters