CascadeTabNet : Une approche pour la détection de tableaux et la reconnaissance de leur structure de bout en bout à partir de documents basés sur des images

Une méthode de reconnaissance automatique des tableaux pour l'interprétation des données tabulaires dans les images de documents implique principalement la résolution de deux problèmes : la détection des tableaux et la reconnaissance de leur structure. Les travaux antérieurs consistaient à résoudre ces deux problèmes de manière indépendante en utilisant deux approches distinctes. Des travaux plus récents mettent en évidence l'utilisation de solutions basées sur l'apprentissage profond tout en tentant de concevoir une solution globale. Dans cet article, nous présentons une approche améliorée basée sur l'apprentissage profond pour résoudre à la fois les problèmes de détection et de reconnaissance structurelle des tableaux en utilisant un seul modèle de réseau neuronal convolutif (CNN). Nous proposons CascadeTabNet : un modèle basé sur le réseau Cascade mask R-CNN HRNet qui détecte les régions des tableaux et reconnaît les cellules du corps structuré à partir des tableaux détectés simultanément. Nous évaluons nos résultats sur les jeux de données publics ICDAR 2013, ICDAR 2019 et TableBank. Nous avons obtenu le 3ème rang dans les résultats post-compétition d'ICDAR 2019 pour la détection des tableaux tout en atteignant les meilleures performances d'exactitude pour les jeux de données ICDAR 2013 et TableBank. Nous obtenons également les résultats d'exactitude les plus élevés sur le jeu de données d'ICDAR 2019 pour la reconnaissance structurelle des tableaux. De plus, nous démontrons l'efficacité des techniques d'apprentissage par transfert et d'augmentation d'image qui permettent aux CNNs d'atteindre des résultats très précis en matière de détection des tableaux. Le code source et le jeu de données sont disponibles à l'adresse suivante : https://github.com/DevashishPrasad/CascadeTabNet