HyperAIHyperAI
il y a 2 mois

Enseigner aux machines à coder : Génération de balises neuronales avec attention visuelle

Sumeet S. Singh
Enseigner aux machines à coder : Génération de balises neuronales avec attention visuelle
Résumé

Nous présentons un modèle de transducteur neuronal avec attention visuelle qui apprend à générer du code LaTeX pour une formule mathématique réelle à partir de son image. En appliquant des techniques de modélisation séquentielle et de transduction qui ont connu un grand succès dans diverses modalités telles que le langage naturel, les images, l'écriture manuscrite, la parole et l'audio, nous avons construit un modèle d'image vers code LaTeX qui apprend à produire des séquences de plus de 150 mots de code LaTeX syntaxiquement et sémantiquement correctes, atteignant un score BLEU de 89 % ; ce qui constitue une amélioration par rapport à l'état de l'art précédent pour le problème Im2Latex. Nous démontrons également, grâce à la visualisation par carte thermique, comment l'attention aide à interpréter le modèle et peut détecter et localiser précisément les symboles sur l'image, malgré l'absence de données de boîtes englobantes lors de l'entraînement.