HyperAIHyperAI
il y a 2 mois

Transformateurs à Haute Performance pour la Reconnaissance de la Structure des Tableaux Nécessitent des Convolutions Précoce

ShengYun Peng; Seongmin Lee; Xiaojing Wang; Rajarajeswari Balasubramaniyan; Duen Horng Chau
Transformateurs à Haute Performance pour la Reconnaissance de la Structure des Tableaux Nécessitent des Convolutions Précoce
Résumé

La reconnaissance de la structure des tableaux (TSR) vise à convertir les images de tableaux en un format lisible par machine, où un encodeur visuel extrait les caractéristiques de l'image et un décodeur textuel génère des jetons représentant le tableau. Les approches existantes utilisent des architectures de réseau neuronal convolutif (CNN) classiques pour l'encodeur visuel et des transformateurs pour le décodeur textuel. Cependant, cette architecture hybride CNN-Transformateur introduit un encodeur visuel complexe qui représente presque la moitié des paramètres du modèle total, réduisant considérablement la vitesse d'entraînement et d'inférence, et entravant le potentiel d'apprentissage auto-supervisé en TSR. Dans ce travail, nous concevons un encodeur visuel léger pour la TSR sans sacrifier sa puissance expressive. Nous découvrons qu'un tronc convolutif peut égaler les performances d'une architecture de CNN classique avec un modèle beaucoup plus simple. Le tronc convolutif trouve un équilibre optimal entre deux facteurs cruciaux pour une TSR haute performance : un rapport de champ récepteur (RF) plus élevé et une longueur de séquence plus longue. Cela lui permet de « voir » une portion appropriée du tableau et de « stocker » la structure complexe du tableau dans une longueur de contexte suffisante pour le transformateur ultérieur. Nous avons mené des études d'ablation reproductibles et rendu notre code open-source sur https://github.com/poloclub/tsr-convstem afin d'améliorer la transparence, inspirer des innovations et faciliter des comparaisons équitables dans notre domaine, car les tableaux constituent une modalité prometteuse pour l'apprentissage de représentations.

Transformateurs à Haute Performance pour la Reconnaissance de la Structure des Tableaux Nécessitent des Convolutions Précoce | Articles de recherche récents | HyperAI