TableNet : Modèle d'apprentissage profond pour la détection de tableaux et l'extraction de données tabulaires en bout-à-bout à partir d'images de documents numérisés

Avec l'utilisation généralisée des téléphones mobiles et des scanners pour photographier et télécharger des documents, le besoin d'extraire les informations piégées dans des images de documents non structurés, telles que les reçus de vente, les formulaires de réclamation d'assurance et les factures financières, devient de plus en plus pressant. Un obstacle majeur à cet objectif est que ces images contiennent souvent des informations sous forme de tableaux, et l'extraction de données à partir de sous-images tabulaires présente un ensemble unique de défis. Cela inclut la détection précise de la région tabulaire au sein d'une image, puis la détection et l'extraction d'informations à partir des lignes et colonnes du tableau détecté. Bien que certains progrès aient été réalisés en matière de détection de tableaux, l'extraction du contenu des tableaux reste un défi car cela implique une reconnaissance plus fine de la structure tabulaire (lignes & colonnes). Les approches antérieures ont tenté de résoudre les problèmes de détection et de reconnaissance structurelle des tableaux indépendamment en utilisant deux modèles distincts. Dans cet article, nous proposons TableNet : un modèle innovant d'apprentissage profond bout-à-bout pour la détection et la reconnaissance structurelle des tableaux. Le modèle exploite l'interdépendance entre les deux tâches de détection et reconnaissance structurelle des tableaux pour segmenter les régions tabulaires et colonnes. Cela est suivi par une extraction sémantique basée sur des règles des lignes à partir des sous-régions tabulaires identifiées. Le modèle proposé et l'approche d'extraction ont été évalués sur les jeux de données ICDAR 2013 et Marmot Table publiquement disponibles, obtenant des résultats d'état de l'art. De plus, nous montrons que l'introduction de caractéristiques sémantiques supplémentaires améliore encore davantage les performances du modèle et que ce dernier montre une capacité d'apprentissage transférable entre différents jeux de données. Une autre contribution de cet article est la fourniture d'annotations supplémentaires sur la structure des tableaux pour les données Marmot, qui ne disposent actuellement que d'annotations pour la détection des tableaux.