HyperAIHyperAI
il y a 2 mois

LGPMA : Reconnaissance de structures de tableaux complexes avec l'alignement pyramidal masqué local et global

Liang Qiao; Zaisheng Li; Zhanzhan Cheng; Peng Zhang; Shiliang Pu; Yi Niu; Wenqi Ren; Wenming Tan; Fei Wu
LGPMA : Reconnaissance de structures de tableaux complexes avec l'alignement pyramidal masqué local et global
Résumé

La reconnaissance de la structure des tableaux est une tâche complexe en raison des diverses structures et des relations de fusion de cellules compliquées. Les méthodes précédentes abordaient le problème en partant d'éléments de différentes granularités (lignes/colonnes, régions textuelles), ce qui les amenait parfois à des problèmes tels que des règles heuristiques imparfaites ou l'ignorance de la division des cellules vides. En nous appuyant sur les caractéristiques de la structure des tableaux, nous avons constaté que l'obtention de boîtes englobantes alignées pour les régions textuelles permet d'effectivement maintenir l'intégralité du champ pertinent de différentes cellules. Cependant, ces boîtes englobantes alignées sont difficiles à prédire avec précision en raison des ambiguïtés visuelles. Dans cet article, nous visons à obtenir des boîtes englobantes alignées plus fiables en exploitant pleinement les informations visuelles provenant à la fois des régions textuelles dans les caractéristiques locales et des relations entre cellules dans les caractéristiques globales. Plus précisément, nous proposons un cadre de correspondance pyramidal masquée locale et globale (Local and Global Pyramid Mask Alignment), qui adopte le mécanisme d'apprentissage masqué pyramidal doux dans les cartes de caractéristiques locales et globales. Ce cadre permet aux frontières prédites des boîtes englobantes de dépasser les limites des propositions initiales. Un module de ré-évaluation par masque pyramidal est ensuite intégré pour concilier les informations locales et globales et affiner les frontières prédites. Enfin, nous proposons une pipeline robuste pour la reconstruction de la structure du tableau afin d'obtenir la structure finale, dans laquelle nous résolvons également efficacement les problèmes de localisation et de division des cellules vides. Les résultats expérimentaux montrent que notre méthode proposée atteint une performance compétitive et même nouvelle référence sur plusieurs benchmarks publics.

LGPMA : Reconnaissance de structures de tableaux complexes avec l'alignement pyramidal masqué local et global | Articles de recherche récents | HyperAI