PosFormer : Reconnaissance de expressions mathématiques manuscrites complexes avec un Transformateur de Forêt de Positions

La reconnaissance d'expressions mathématiques manuscrites (HMER) trouve de nombreuses applications dans des scénarios d'interaction homme-machine, tels que l'éducation numérisée et les bureaux automatisés. Récemment, des modèles basés sur des séquences avec des architectures encodeur-décodeur ont été couramment adoptés pour aborder cette tâche en prédiction directe des séquences LaTeX d'images d'expressions. Cependant, ces méthodes ne parviennent qu'à apprendre implicitement les règles de syntaxe fournies par LaTeX, ce qui peut entraîner une incapacité à décrire correctement la position et les relations hiérarchiques entre les symboles en raison de relations structurales complexes et de styles d'écriture variés.Pour surmonter ce défi, nous proposons un transformateur de forêt de positions (PosFormer) pour la HMER, qui optimise conjointement deux tâches : la reconnaissance d'expressions et la reconnaissance de positions, afin d'apprendre explicitement une représentation des caractéristiques symboliques prenant en compte la position. Plus précisément, nous concevons tout d'abord une forêt de positions qui modèle l'expression mathématique sous forme de structure arborescente et analyse les relations de position relatives entre les symboles. Sans nécessiter d'annotations supplémentaires, chaque symbole est attribué un identifiant de position dans la forêt pour indiquer sa position spatiale relative.Ensuite, nous proposons un module de correction d'attention implicite afin de capturer avec précision l'attention pour la HMER dans l'architecture du décodeur basée sur des séquences. De nombreux expériences valident la supériorité du PosFormer, qui dépasse constamment les méthodes actuelles avec des gains respectifs de 2,03%/1,22%/2,00%, 1,83% et 4,62% sur les jeux de données CROHME 2014/2016/2019 (single-line), M2E (multi-ligne) et MNE (complexe), sans latence ou coût computationnel supplémentaire. Le code source est disponible à l'adresse suivante : https://github.com/SJTU-DeepVisionLab/PosFormer.