HyperAIHyperAI
il y a 2 mois

Détection robuste et reconnaissance de la structure des tableaux à partir d'images de documents hétérogènes

Chixiang Ma; Weihong Lin; Lei Sun; Qiang Huo
Détection robuste et reconnaissance de la structure des tableaux à partir d'images de documents hétérogènes
Résumé

Nous présentons une nouvelle approche de détection de tableaux et de reconnaissance de leur structure, nommée RobusTabNet, capable de détecter les limites des tableaux et de reconstruire la structure cellulaire de chaque tableau à partir d'images de documents hétérogènes. Pour la détection des tableaux, nous proposons d'utiliser CornerNet comme nouveau réseau de proposition de régions pour générer des propositions de tableaux de meilleure qualité pour Faster R-CNN, ce qui a considérablement amélioré la précision de localisation de Faster R-CNN pour la détection des tableaux. Par conséquent, notre approche de détection des tableaux atteint des performances d'état de l'art sur trois benchmarks publics de détection des tableaux, à savoir cTDaR TrackA, PubLayNet et IIIT-AR-13K, en utilisant uniquement un réseau backbone ResNet-18 léger.De plus, nous proposons une nouvelle approche de reconnaissance de la structure des tableaux basée sur le fractionnement et le regroupement. Dans cette approche, un module innovant basé sur un CNN spatial est proposé pour prédire les lignes séparatrices et diviser chaque tableau détecté en une grille de cellules. Un module basé sur un CNN Grille est ensuite appliqué pour regrouper les cellules et restaurer les cellules étendues. Comme le module CNN spatial peut efficacement propager les informations contextuelles à travers l'ensemble de l'image du tableau, notre reconnaissance structurale des tableaux peut robustement identifier les tableaux avec de grands espaces vides et ceux géométriquement déformés (voire courbés).Grâce à ces deux techniques, notre approche de reconnaissance structurale des tableaux atteint également des performances d'état de l'art sur trois benchmarks publics, incluant SciTSR, PubTabNet et cTDaR TrackB2-Modern. De plus, nous avons démontré davantage les avantages de notre méthode dans la reconnaissance des tableaux à structures complexes, avec grands espaces vides ainsi que géométriquement déformés ou même courbes sur un ensemble de données interne plus difficile.

Détection robuste et reconnaissance de la structure des tableaux à partir d'images de documents hétérogènes | Articles de recherche récents | HyperAI