HyperAIHyperAI
il y a 2 mois

Diviser, intégrer et fusionner : Un reconnaisseur de structure de table précis

Zhenrong Zhang; Jianshu Zhang; Jun Du
Diviser, intégrer et fusionner : Un reconnaisseur de structure de table précis
Résumé

La reconnaissance de la structure des tableaux est une partie essentielle pour permettre aux machines de comprendre les tableaux. Sa tâche principale consiste à reconnaître la structure interne d'un tableau. Cependant, en raison de la complexité et de la diversité de leurs structures et styles, il est très difficile de parser les données tabulaires dans un format structuré que les machines puissent facilement comprendre, en particulier pour les tableaux complexes. Dans cet article, nous présentons Split, Embed and Merge (SEM), un reconnaissanceur de structure de tableau précis. Notre modèle prend en entrée des images de tableaux et peut correctement reconnaître leur structure, qu'il s'agisse de tableaux simples ou complexes. SEM est principalement composé de trois parties : le diviseur (splitter), l'incrustateur (embedder) et le fusionneur (merger). Dans la première étape, nous appliquons le diviseur pour prédire les régions potentielles des séparateurs de lignes (colonnes) du tableau et obtenir la structure grillagée fine du tableau. À la deuxième étape, en tenant pleinement compte des informations textuelles contenues dans le tableau, nous fusionnons les caractéristiques de sortie pour chaque cellule du tableau provenant des modalités visuelle et linguistique. De plus, nous obtenons une précision supérieure dans nos expériences grâce à l'ajout de caractéristiques sémantiques supplémentaires.Enfin, nous traitons la fusion de ces grilles de base tabulaires selon une méthode auto-régressive. Les résultats correspondants de cette fusion sont appris par le biais du mécanisme d'attention. Dans nos expériences, SEM atteint une moyenne d’F1-Measure de 97,11 % sur l'ensemble SciTSR, surpassant largement les autres méthodes. Nous avons également remporté le premier prix dans la catégorie des tableaux complexes et le troisième prix dans toutes les catégories lors du Concours ICDAR 2021 sur l'analyse des documents scientifiques, Tâche B. Des expériences étendues sur d'autres jeux de données publiquement disponibles démontrent que notre modèle atteint l'état de l'art.Note: - "F1-Measure" is kept in English as it is a commonly used term in scientific literature.- "ICDAR" is an acronym and is therefore left untranslated.- "SciTSR" is a dataset name and is also left untranslated.- "Task-B" refers to a specific task in the competition and is thus left untranslated.- The terms "splitter," "embedder," and "merger" are translated with their corresponding French terms but are annotated with the original English terms for clarity.

Diviser, intégrer et fusionner : Un reconnaisseur de structure de table précis | Articles de recherche récents | HyperAI