Lorsque le Comptage Rencontre l’HMER : Réseau Conscient du Comptage pour la Reconnaissance d’Expressions Mathématiques Manuscrites

Récemment, la plupart des méthodes de reconnaissance d'expressions mathématiques manuscrites (HMER) ont adopté des réseaux encodeur-décodeur, qui prédisent directement les séquences de balises à partir d'images de formules en utilisant le mécanisme d'attention. Cependant, ces méthodes peuvent échouer à lire avec précision des formules à structure complexe ou à générer des séquences de balises longues, car les résultats de l'attention sont souvent inexacts en raison de la grande variabilité des styles d'écriture ou des dispositions spatiales. Pour atténuer ce problème, nous proposons un réseau non conventionnel pour l'HMER appelé Counting-Aware Network (CAN), qui optimise conjointement deux tâches : l'HMER et le décompte de symboles.Plus précisément, nous avons conçu un module de décompte faiblement supervisé capable de prédire le nombre d'instances de chaque classe de symbole sans annotations de position au niveau du symbole, puis nous l'avons intégré dans un modèle encodeur-décodeur typique basé sur l'attention pour l'HMER. Les expériences menées sur des jeux de données de référence pour l'HMER ont validé que tant l'optimisation conjointe que les résultats du décompte sont bénéfiques pour corriger les erreurs de prédiction des modèles encodeur-décodeur, et que CAN surpasse constamment les méthodes les plus avancées actuellement disponibles. En particulier, comparativement à un modèle encodeur-décodeur pour l'HMER, le coût temporel supplémentaire engendré par le module de décompte proposé est marginal. Le code source est disponible à l'adresse suivante : https://github.com/LBH1024/CAN.