HyperAIHyperAI
il y a 2 mois

Décodage Multi-Cellules et Apprentissage Mutuel pour la Reconnaissance de la Structure de Tableaux et des Caractères

Takaya Kawakatsu
Décodage Multi-Cellules et Apprentissage Mutuel pour la Reconnaissance de la Structure de Tableaux et des Caractères
Résumé

L'extraction des contenus de tableaux à partir de documents tels que des articles scientifiques et des rapports financiers, et leur conversion en un format pouvant être traité par des grands modèles linguistiques, est une tâche importante dans le traitement de l'information de connaissance. Les approches de bout en bout, qui reconnaissent non seulement la structure des tableaux mais aussi le contenu des cellules, ont atteint des performances comparables à celles des modèles les plus avancés utilisant des systèmes externes de reconnaissance de caractères, et présentent un potentiel d'amélioration supplémentaire. De plus, ces modèles sont désormais capables de reconnaître des tableaux longs comportant plusieurs centaines de cellules grâce à l'introduction de l'attention locale. Cependant, les modèles reconnaissent la structure du tableau dans une seule direction, du haut vers le bas (de l'en-tête au pied-de-page), et la reconnaissance du contenu des cellules est effectuée indépendamment pour chaque cellule, ce qui ne permet pas d'exploiter les informations utiles provenant des cellules voisines. Dans cet article, nous proposons un décodeur de contenu multicellulaire et un mécanisme d'apprentissage mutuel bidirectionnel pour améliorer l'approche de bout en bout. L'efficacité est démontrée sur deux grands ensembles de données, et les résultats expérimentaux montrent des performances comparables à celles des modèles les plus avancés, même pour les tableaux longs avec un grand nombre de cellules.