HyperAIHyperAI

Command Palette

Search for a command to run...

TRUST : Un Reconnaissance Précise et Intégrale de la Structure des Tableaux Utilisant des Transformers Basés sur la Séparation

Zengyuan Guo Yuechen Yu Pengyuan Lv Chengquan Zhang Haojie Li Zhihui Wang Kun Yao Jingtuo Liu Jingdong Wang

Résumé

La reconnaissance de la structure des tableaux est une partie cruciale du domaine d'analyse des images de documents. Sa difficulté réside dans la nécessité de parser les coordonnées physiques et les indices logiques de chaque cellule simultanément. Cependant, les méthodes existantes ont du mal à atteindre ces deux objectifs, en particulier lorsque les lignes de séparation des tableaux sont floues ou inclinées. Dans cet article, nous proposons une méthode précise et intégrée basée sur les transformers pour la reconnaissance de la structure des tableaux, appelée TRUST (Transformer-based Row and Column Splitting and Table Grid Merging). Les transformers sont adaptés à la reconnaissance de la structure des tableaux grâce à leurs calculs globaux, leur mémoire parfaite et leur capacité de calcul parallèle. En introduisant un nouveau module de découpage basé sur les requêtes (Query-based Splitting Module) et un module de fusion basé sur les sommets (Vertex-based Merging Module), le problème de reconnaissance de la structure des tableaux est décomposé en deux sous-tâches d'optimisation conjointe : le découpage multi-orienté des lignes/colonnes des tableaux et la fusion des grilles de tableau. Le module de découpage basé sur les requêtes apprend des informations contextuelles robustes à partir de longues dépendances via les réseaux de transformers, prédit avec précision les séparateurs multi-orientés des lignes/colonnes du tableau et obtient ainsi les grilles de base du tableau. Le module de fusion basé sur les sommets est capable d'agréger l'information contextuelle locale entre les grilles de base adjacentes, offrant ainsi la possibilité de fusionner avec précision les grilles de base appartenant à la même cellule étendue. Nous avons mené des expériences sur plusieurs benchmarks populaires, dont PubTabNet et SynthTable, et notre méthode a obtenu des résultats nouveaux et meilleurs que l'état actuel de l'art. En particulier, TRUST fonctionne à 10 FPS sur PubTabNet, surpassant largement les méthodes précédentes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp