il y a 2 mois

Vision Grid Transformer pour l'analyse de la mise en page des documents

Da, Cheng ; Luo, Chuwei ; Zheng, Qi ; Yao, Cong

Résumé

Les modèles pré-entraînés de documents et les modèles basés sur une grille ont fait leurs preuves dans diverses tâches en Document AI. Cependant, pour la tâche d'analyse de mise en page de documents (DLA), les modèles pré-entraînés existants, même ceux pré-entraînés de manière multimodale, s'appuient généralement sur des caractéristiques textuelles ou visuelles. Les modèles basés sur une grille pour l'analyse de mise en page de documents sont multimodaux mais négligent largement l'effet du pré-entraînement. Pour tirer pleinement parti des informations multimodales et exploiter les techniques de pré-entraînement afin d'apprendre une meilleure représentation pour l'analyse de mise en page de documents, nous présentons dans cet article VGT, un Vision Grid Transformer à deux flux, dans lequel est proposé et pré-entraîné un Grid Transformer (GiT) pour la compréhension sémantique au niveau des jetons et des segments en 2D. De plus, un nouveau jeu de données nommé D$^4$LA, qui constitue jusqu'à présent la référence manuellement annotée la plus diversifiée et détaillée pour l'analyse de mise en page de documents, a été compilé et publié. Les résultats expérimentaux ont montré que le modèle VGT proposé atteint des performances inédites sur les tâches d'analyse de mise en page de documents, par exemple : PubLayNet ($95{,}7\% \rightarrow 96{,}2\%$), DocBank ($79{,}6\% \rightarrow 84{,}1\%$) et D$^4$LA ($67{,}7\% \rightarrow 68{,}8\%$). Le code source ainsi que les modèles et le jeu de données D$^4$LA seront rendus publiquement disponibles à l'adresse suivante : \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.