Reconnaissance d'Expressions Mathématiques Manuscrites avec Transformer Formé Bidirectionnellement

Les modèles encodeur-décodeur ont réalisé des progrès significatifs dans la reconnaissance d'expressions mathématiques manuscrites récemment. Cependant, il reste un défi pour les méthodes actuelles d'attribuer l'attention aux caractéristiques d'image de manière précise. De plus, ces modèles encodeur-décodeur utilisent généralement des modèles basés sur les RNN (Réseaux de Neurones Récurrents) dans leur partie décodeuse, ce qui les rend inefficaces pour traiter des séquences $\LaTeX{}$ longues. Dans cet article, un décodeur basé sur le transformer est employé pour remplacer ceux basés sur les RNN, ce qui rend l'architecture du modèle très concise. De plus, une nouvelle stratégie d'entraînement est introduite afin d'exploiter pleinement le potentiel du transformer dans le modèle de langage bidirectionnel. Par rapport à plusieurs méthodes ne faisant pas usage d'augmentation de données, les expériences montrent que notre modèle améliore le taux ExpRate des méthodes actuelles les plus performantes sur CROHME 2014 de 2,23 %. De manière similaire, sur CROHME 2016 et CROHME 2019, nous améliorons respectivement le taux ExpRate de 1,92 % et 2,28 %.