Command Palette
Search for a command to run...
Machines de collaboration neuronale pour la reconnaissance de la structure des tableaux
Machines de collaboration neuronale pour la reconnaissance de la structure des tableaux
Hao Liu; Xin Li; Bing Liu; Deqiang Jiang; Yinsong Liu; Bo Ren
Résumé
Récemment, la reconnaissance de la structure des tableaux a connu des progrès impressionnants grâce aux modèles de graphes profonds. La plupart de ces modèles exploitent des indices visuels uniques des éléments tabulaires ou combinent simplement les indices visuels avec d'autres modalités par le biais d'une fusion précoce pour raisonner leurs relations graphiques. Cependant, ni la fusion précoce ni le raisonnement individuel en termes de multiples modalités ne peuvent être appropriés pour toutes les variétés de structures de tableaux, qui présentent une grande diversité. Au lieu de cela, il est attendu que différentes modalités collaborent entre elles selon différents schémas pour différents cas de tableaux. Dans la communauté, l'importance des interactions intra-inter modalités pour le raisonnement sur la structure des tableaux reste encore sous-exploitée. Dans cet article, nous définissons ce problème comme celui de la reconnaissance hétérogène de la structure des tableaux (Hetero-TSR). Afin de combler cette lacune, nous présentons une nouvelle architecture appelée Machines Graphiques Collaboratives Neuronales (NCGM) dotée de blocs collaboratifs empilés, qui extrait alternativement le contexte intra-modalité et modèle les interactions inter-modalités d'une manière hiérarchique. Cette approche peut représenter les relations intra-inter modalités des éléments tabulaires de manière plus robuste, ce qui améliore considérablement les performances de reconnaissance. Nous montrons également que l'architecture NCGM proposée peut moduler le schéma collaboratif des différentes modalités en fonction du contexte des indices intra-modalité, ce qui est crucial pour les cas de tableaux diversifiés. Les résultats expérimentaux sur des benchmarks démontrent que notre NCGM proposée atteint des performances d'état de l'art et surpassent largement d'autres méthodes contemporaines, notamment dans des scénarios difficiles.