HyperAIHyperAI

Command Palette

Search for a command to run...

PosFormer : Reconnaissance de expressions mathématiques manuscrites complexes avec un Transformateur de Forêt de Positions

Guan Tongkun ; Lin Chengyu ; Shen Wei ; Yang Xiaokang

Résumé

La reconnaissance d'expressions mathématiques manuscrites (HMER) trouve de nombreuses applications dans des scénarios d'interaction homme-machine, tels que l'éducation numérisée et les bureaux automatisés. Récemment, des modèles basés sur des séquences avec des architectures encodeur-décodeur ont été couramment adoptés pour aborder cette tâche en prédiction directe des séquences LaTeX d'images d'expressions. Cependant, ces méthodes ne parviennent qu'à apprendre implicitement les règles de syntaxe fournies par LaTeX, ce qui peut entraîner une incapacité à décrire correctement la position et les relations hiérarchiques entre les symboles en raison de relations structurales complexes et de styles d'écriture variés.Pour surmonter ce défi, nous proposons un transformateur de forêt de positions (PosFormer) pour la HMER, qui optimise conjointement deux tâches : la reconnaissance d'expressions et la reconnaissance de positions, afin d'apprendre explicitement une représentation des caractéristiques symboliques prenant en compte la position. Plus précisément, nous concevons tout d'abord une forêt de positions qui modèle l'expression mathématique sous forme de structure arborescente et analyse les relations de position relatives entre les symboles. Sans nécessiter d'annotations supplémentaires, chaque symbole est attribué un identifiant de position dans la forêt pour indiquer sa position spatiale relative.Ensuite, nous proposons un module de correction d'attention implicite afin de capturer avec précision l'attention pour la HMER dans l'architecture du décodeur basée sur des séquences. De nombreux expériences valident la supériorité du PosFormer, qui dépasse constamment les méthodes actuelles avec des gains respectifs de 2,03%/1,22%/2,00%, 1,83% et 4,62% sur les jeux de données CROHME 2014/2016/2019 (single-line), M2E (multi-ligne) et MNE (complexe), sans latence ou coût computationnel supplémentaire. Le code source est disponible à l'adresse suivante : https://github.com/SJTU-DeepVisionLab/PosFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp