HyperAIHyperAI
il y a 2 mois

TRUST : Un Reconnaissance Précise et Intégrale de la Structure des Tableaux Utilisant des Transformers Basés sur la Séparation

Zengyuan Guo; Yuechen Yu; Pengyuan Lv; Chengquan Zhang; Haojie Li; Zhihui Wang; Kun Yao; Jingtuo Liu; Jingdong Wang
TRUST : Un Reconnaissance Précise et Intégrale de la Structure des Tableaux Utilisant des Transformers Basés sur la Séparation
Résumé

La reconnaissance de la structure des tableaux est une partie cruciale du domaine d'analyse des images de documents. Sa difficulté réside dans la nécessité de parser les coordonnées physiques et les indices logiques de chaque cellule simultanément. Cependant, les méthodes existantes ont du mal à atteindre ces deux objectifs, en particulier lorsque les lignes de séparation des tableaux sont floues ou inclinées. Dans cet article, nous proposons une méthode précise et intégrée basée sur les transformers pour la reconnaissance de la structure des tableaux, appelée TRUST (Transformer-based Row and Column Splitting and Table Grid Merging). Les transformers sont adaptés à la reconnaissance de la structure des tableaux grâce à leurs calculs globaux, leur mémoire parfaite et leur capacité de calcul parallèle. En introduisant un nouveau module de découpage basé sur les requêtes (Query-based Splitting Module) et un module de fusion basé sur les sommets (Vertex-based Merging Module), le problème de reconnaissance de la structure des tableaux est décomposé en deux sous-tâches d'optimisation conjointe : le découpage multi-orienté des lignes/colonnes des tableaux et la fusion des grilles de tableau. Le module de découpage basé sur les requêtes apprend des informations contextuelles robustes à partir de longues dépendances via les réseaux de transformers, prédit avec précision les séparateurs multi-orientés des lignes/colonnes du tableau et obtient ainsi les grilles de base du tableau. Le module de fusion basé sur les sommets est capable d'agréger l'information contextuelle locale entre les grilles de base adjacentes, offrant ainsi la possibilité de fusionner avec précision les grilles de base appartenant à la même cellule étendue. Nous avons mené des expériences sur plusieurs benchmarks populaires, dont PubTabNet et SynthTable, et notre méthode a obtenu des résultats nouveaux et meilleurs que l'état actuel de l'art. En particulier, TRUST fonctionne à 10 FPS sur PubTabNet, surpassant largement les méthodes précédentes.

TRUST : Un Reconnaissance Précise et Intégrale de la Structure des Tableaux Utilisant des Transformers Basés sur la Séparation | Articles de recherche récents | HyperAI