Reconnaissance d'expressions mathématiques manuscrites par agrégation d'attention basée sur l'apprentissage mutuel bidirectionnel

La reconnaissance d'expressions mathématiques manuscrites vise à générer automatiquement des séquences LaTeX à partir d'images données. Actuellement, les modèles encodeur-décodeur basés sur l'attention sont largement utilisés pour cette tâche. Ils génèrent généralement les séquences cibles de gauche à droite (L2R), négligeant ainsi les contextes de droite à gauche (R2L). Dans cet article, nous proposons un réseau d'apprentissage mutuel bidirectionnel basé sur l'agrégation d'attention (ABM) composé d'un encodeur partagé et de deux décodeurs inverses parallèles (L2R et R2L). Les deux décodeurs sont améliorés par le biais de la distillation mutuelle, qui implique un transfert de connaissances un-à-un à chaque étape d'entraînement, exploitant pleinement les informations complémentaires provenant des deux directions inverses. De plus, afin de traiter les symboles mathématiques à différentes échelles, un module d'agrégation d'attention (AAM) est proposé pour intégrer efficacement les attentions couvrant plusieurs échelles. Il convient de noter que lors de la phase d'inférence, étant donné que le modèle a déjà appris des connaissances dans les deux directions inverses, nous n'utilisons que la branche L2R pour l'inférence, conservant ainsi la taille originale des paramètres et la vitesse d'inférence. Des expériences approfondies montrent que notre approche proposée atteint une précision de reconnaissance de 56,85 % sur CROHME 2014, 52,92 % sur CROHME 2016 et 53,96 % sur CROHME 2019 sans augmentation de données ni combinaison de modèles, surpassant considérablement les méthodes actuelles les plus performantes. Le code source est disponible à l'adresse suivante : https://github.com/XH-B/ABM.