HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Grid Transformer pour l'analyse de la mise en page des documents

Cheng Da Chuwei Luo Qi Zheng Cong Yao

Résumé

Les modèles pré-entraînés de documents et les modèles basés sur une grille ont fait leurs preuves dans diverses tâches en Document AI. Cependant, pour la tâche d'analyse de mise en page de documents (DLA), les modèles pré-entraînés existants, même ceux pré-entraînés de manière multimodale, s'appuient généralement sur des caractéristiques textuelles ou visuelles. Les modèles basés sur une grille pour l'analyse de mise en page de documents sont multimodaux mais négligent largement l'effet du pré-entraînement. Pour tirer pleinement parti des informations multimodales et exploiter les techniques de pré-entraînement afin d'apprendre une meilleure représentation pour l'analyse de mise en page de documents, nous présentons dans cet article VGT, un Vision Grid Transformer à deux flux, dans lequel est proposé et pré-entraîné un Grid Transformer (GiT) pour la compréhension sémantique au niveau des jetons et des segments en 2D. De plus, un nouveau jeu de données nommé D4^44LA, qui constitue jusqu'à présent la référence manuellement annotée la plus diversifiée et détaillée pour l'analyse de mise en page de documents, a été compilé et publié. Les résultats expérimentaux ont montré que le modèle VGT proposé atteint des performances inédites sur les tâches d'analyse de mise en page de documents, par exemple : PubLayNet (95,7%96,2%95{,}7\% \rightarrow 96{,}2\%95,7%96,2%), DocBank (79,6%84,1%79{,}6\% \rightarrow 84{,}1\%79,6%84,1%) et D4^44LA (67,7%68,8%67{,}7\% \rightarrow 68{,}8\%67,7%68,8%). Le code source ainsi que les modèles et le jeu de données D4^44LA seront rendus publiquement disponibles à l'adresse suivante : \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp