HyperAIHyperAI
il y a 2 mois

PubLayNet : le plus grand jeu de données jamais créé pour l'analyse de la mise en page des documents

Xu Zhong; Jianbin Tang; Antonio Jimeno Yepes
PubLayNet : le plus grand jeu de données jamais créé pour l'analyse de la mise en page des documents
Résumé

La reconnaissance de la mise en page des documents numériques non structurés est une étape cruciale lors de leur analyse pour les transformer en format lisible par machine et structuré, destiné aux applications downstream. Les réseaux neuronaux profonds développés pour la vision par ordinateur ont fait leurs preuves comme méthode efficace pour analyser la mise en page des images de documents. Cependant, les jeux de données de mise en page de documents actuellement disponibles au public sont plusieurs ordres de grandeur plus petits que les jeux de données établis en vision par ordinateur. Les modèles doivent être entraînés par apprentissage par transfert à partir d'un modèle de base pré-entraîné sur un jeu de données traditionnel en vision par ordinateur. Dans cet article, nous développons le jeu de données PubLayNet pour l'analyse de la mise en page des documents en faisant automatiquement correspondre les représentations XML et le contenu de plus d'un million d'articles PDF publiquement disponibles sur PubMed Central. La taille du jeu de données est comparable à celle des jeux de données établis en vision par ordinateur, contenant plus de 360 000 images de documents, où les éléments typiques de la mise en page sont annotés. Les expériences montrent que les réseaux neuronaux profonds entraînés sur PubLayNet reconnaissent avec précision la mise en page des articles scientifiques. Les modèles pré-entraînés constituent également une base plus efficace pour l'apprentissage par transfert dans un domaine documentaire différent. Nous mettons ce jeu de données à disposition (https://github.com/ibm-aur-nlp/PubLayNet) afin de soutenir le développement et l'évaluation de modèles plus avancés pour l'analyse de la mise en page des documents.