HyperAIHyperAI
il y a 2 mois

Une Approche Graphique pour l'Analyse de la Mise en Page des Documents

Wang, Jilin ; Krumdick, Michael ; Tong, Baojia ; Halim, Hamima ; Sokolov, Maxim ; Barda, Vadym ; Vendryes, Delphine ; Tanner, Chris
Une Approche Graphique pour l'Analyse de la Mise en Page des Documents
Résumé

L'analyse de mise en page de documents (DLA) est la tâche consistant à détecter les contenus sémantiques distincts au sein d'un document et à les classifier correctement dans une catégorie appropriée (par exemple, texte, titre, figure). Les pipelines DLA permettent aux utilisateurs de convertir des documents en formats structurés lisibles par machine, qui peuvent ensuite être utilisés pour de nombreuses tâches utiles en aval. La plupart des modèles DLA existants d'avant-garde (SOTA) représentent les documents sous forme d'images, ignorant ainsi les métadonnées riches disponibles dans les PDFs générés électroniquement. En exploitant directement ces métadonnées, nous représentons chaque page PDF comme un graphe structuré et formulons le problème DLA comme un problème de segmentation et de classification de graphes. Nous présentons le modèle d'analyse de mise en page basé sur les graphes (GLAM), un réseau neuronal graphique léger qui se distingue par sa performance comparable à celle des modèles SOTA sur deux jeux de données DLA difficiles - tout en étant d'un ordre de grandeur plus petit que les modèles existants. Plus précisément, le modèle GLAM avec 4 millions de paramètres surpasse le modèle basé sur la vision par ordinateur leader avec plus de 140 millions de paramètres dans 5 des 11 classes du jeu de données DocLayNet. Un ensemble simple de ces deux modèles atteint un nouveau niveau d'avant-garde sur DocLayNet, augmentant le mAP de 76,8 à 80,8. Dans l'ensemble, GLAM est plus de cinq fois plus efficace que les modèles SOTA, ce qui en fait un choix ingénieux favorable pour les tâches DLA.