NAMER : Modélisation non auto-régressive pour la reconnaissance d'expressions mathématiques manuscrites

Récemment, la reconnaissance d'expressions mathématiques manuscrites (HMER) a suscité une attention considérable dans le domaine de la reconnaissance de formes en raison de ses nombreuses applications dans la compréhension des documents. Les méthodes actuelles abordent généralement l'HMER comme une tâche de génération d'image à séquence au sein d'un cadre encodeur-décodeur autorégressif (AR). Cependant, ces approches souffrent de plusieurs inconvénients : 1) un manque de contexte linguistique global, limitant l'utilisation des informations au-delà de l'étape actuelle de décodage ; 2) une accumulation d'erreurs lors du décodage AR ; et 3) une vitesse de décodage lente. Pour résoudre ces problèmes, cet article fait une première tentative pour élaborer une nouvelle approche de modélisation non autorégressive (Non-AR) pour l'HMER, appelée NAMER. NAMER comprend un Tokenizer Visuellement Conscient (VAT) et un Décodeur Graphique Parallèle (PGD). Initialement, le VAT tokenise les symboles visibles et les relations locales à un niveau grossier. Ensuite, le PGD affine tous les tokens et établit les connexions en parallèle, en exploitant des contextes visuels et linguistiques complets. Les expériences menées sur les jeux de données CROHME 2014/2016/2019 et HME100K montrent que NAMER non seulement surpassent les méthodes actuelles les plus avancées (SOTA) avec des améliorations de 1,93%/2,35%/1,49%/0,62% en ExpRate, mais également réalise des accélérations significatives, étant respectivement 13,7 fois et 6,7 fois plus rapide en temps de décodage et en FPS global. Ces résultats prouvent l'efficacité et l'efficience de NAMER.