Regarder, attentionner et analyser : une approche fondée sur un réseau de neurones end-to-end pour la reconnaissance d'expressions mathématiques manuscrites
La reconnaissance automatique d’une expression mathématique manuscrite (HME) est un défi en raison des ambiguïtés inhérentes aux symboles manuscrits et de la structure bidimensionnelle des expressions mathématiques. Inspirés par les avancées récentes en apprentissage profond, nous proposons Watch, Attend and Parse (WAP), une nouvelle approche end-to-end basée sur les réseaux neuronaux, capable d’apprendre à reconnaître les HME dans leur disposition bidimensionnelle et de les convertir en séquences unidimensionnelles de caractères au format LaTeX. Contrairement aux méthodes traditionnelles, notre modèle évite les problèmes liés à la segmentation des symboles et ne nécessite pas de grammaire d’expression prédéfinie. Les tâches de reconnaissance des symboles et d’analyse structurelle sont respectivement traitées par un « watcher » et un « parser ». Nous utilisons un encodeur à réseau de neurones convolutifs, prenant en entrée des images d’HME, comme watcher, et un décodeur à réseau de neurones récurrents doté d’un mécanisme d’attention comme parser pour générer des séquences LaTeX. De plus, la correspondance entre les expressions d’entrée et les séquences LaTeX de sortie est apprise automatiquement grâce au mécanisme d’attention. Nous validons l’approche proposée sur un benchmark publié par le concours international CROHME. En utilisant le jeu de données d’entraînement officiel, WAP dépasse significativement la méthode de l’état de l’art, atteignant une précision de reconnaissance d’expressions de 46,55 % sur CROHME 2014 et de 44,55 % sur CROHME 2016.