HyperAIHyperAI
il y a 2 mois

Reconnaissance de table basée sur les images : données, modèle et évaluation

Xu Zhong; Elaheh ShafieiBavani; Antonio Jimeno Yepes
Reconnaissance de table basée sur les images : données, modèle et évaluation
Résumé

Les informations importantes liées à un sujet spécifique dans un document sont souvent organisées sous forme de tableau pour faciliter la recherche et la comparaison d'informations, ce qui peut être difficile à fournir en langage naturel. Cependant, les données tabulaires dans des documents numériques non structurés, tels que le format de document portable (PDF) et les images, sont difficiles à analyser et à convertir en un format structuré lisible par machine, en raison de la complexité et de la diversité de leur structure et style. Pour faciliter la reconnaissance de tableaux basée sur des images avec l'apprentissage profond, nous avons développé le plus grand ensemble de données publiquement disponible pour la reconnaissance de tableaux, PubTabNet (https://github.com/ibm-aur-nlp/PubTabNet), contenant 568 000 images de tableaux avec leur représentation structurée en HTML correspondante. PubTabNet est généré automatiquement en faisant correspondre les représentations XML et PDF des articles scientifiques du sous-ensemble Open Access de PubMed Central (PMCOA). Nous proposons également une nouvelle architecture d'encodeur-décodeur dual basée sur l'attention (EDD) qui convertit les images de tableaux en code HTML. Le modèle dispose d'un décodeur structure qui reconstruit la structure du tableau et aide le décodeur cellulaire à reconnaître le contenu des cellules. De plus, nous introduisons une nouvelle métrique basée sur la distance d'édition arborescente (TEDS) pour la reconnaissance de tableaux, qui capture plus adéquatement les erreurs d'alignement multicellulaire et les erreurs d'OCR que la métrique préétablie. Les expériences montrent que le modèle EDD peut reconnaître avec précision des tableaux complexes en se basant uniquement sur leur représentation imagée, surpassant l'état de l'art avec une amélioration absolue de 9,7 % du score TEDS.

Reconnaissance de table basée sur les images : données, modèle et évaluation | Articles de recherche récents | HyperAI