HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateurs à Haute Performance pour la Reconnaissance de la Structure des Tableaux Nécessitent des Convolutions Précoce

ShengYun Peng¹ Seongmin Lee¹ Xiaojing Wang² Rajarajeswari Balasubramaniyan² Duen Horng Chau¹

Résumé

La reconnaissance de la structure des tableaux (TSR) vise à convertir les images de tableaux en un format lisible par machine, où un encodeur visuel extrait les caractéristiques de l'image et un décodeur textuel génère des jetons représentant le tableau. Les approches existantes utilisent des architectures de réseau neuronal convolutif (CNN) classiques pour l'encodeur visuel et des transformateurs pour le décodeur textuel. Cependant, cette architecture hybride CNN-Transformateur introduit un encodeur visuel complexe qui représente presque la moitié des paramètres du modèle total, réduisant considérablement la vitesse d'entraînement et d'inférence, et entravant le potentiel d'apprentissage auto-supervisé en TSR. Dans ce travail, nous concevons un encodeur visuel léger pour la TSR sans sacrifier sa puissance expressive. Nous découvrons qu'un tronc convolutif peut égaler les performances d'une architecture de CNN classique avec un modèle beaucoup plus simple. Le tronc convolutif trouve un équilibre optimal entre deux facteurs cruciaux pour une TSR haute performance : un rapport de champ récepteur (RF) plus élevé et une longueur de séquence plus longue. Cela lui permet de « voir » une portion appropriée du tableau et de « stocker » la structure complexe du tableau dans une longueur de contexte suffisante pour le transformateur ultérieur. Nous avons mené des études d'ablation reproductibles et rendu notre code open-source sur https://github.com/poloclub/tsr-convstem afin d'améliorer la transparence, inspirer des innovations et faciliter des comparaisons équitables dans notre domaine, car les tableaux constituent une modalité prometteuse pour l'apprentissage de représentations.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp