HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance d'expressions mathématiques manuscrites par agrégation d'attention basée sur l'apprentissage mutuel bidirectionnel

Bian Xiaohang ; Qin Bo ; Xin Xiaozhe ; Li Jianwu ; Su Xuefeng ; Wang Yanfeng

Résumé

La reconnaissance d'expressions mathématiques manuscrites vise à générer automatiquement des séquences LaTeX à partir d'images données. Actuellement, les modèles encodeur-décodeur basés sur l'attention sont largement utilisés pour cette tâche. Ils génèrent généralement les séquences cibles de gauche à droite (L2R), négligeant ainsi les contextes de droite à gauche (R2L). Dans cet article, nous proposons un réseau d'apprentissage mutuel bidirectionnel basé sur l'agrégation d'attention (ABM) composé d'un encodeur partagé et de deux décodeurs inverses parallèles (L2R et R2L). Les deux décodeurs sont améliorés par le biais de la distillation mutuelle, qui implique un transfert de connaissances un-à-un à chaque étape d'entraînement, exploitant pleinement les informations complémentaires provenant des deux directions inverses. De plus, afin de traiter les symboles mathématiques à différentes échelles, un module d'agrégation d'attention (AAM) est proposé pour intégrer efficacement les attentions couvrant plusieurs échelles. Il convient de noter que lors de la phase d'inférence, étant donné que le modèle a déjà appris des connaissances dans les deux directions inverses, nous n'utilisons que la branche L2R pour l'inférence, conservant ainsi la taille originale des paramètres et la vitesse d'inférence. Des expériences approfondies montrent que notre approche proposée atteint une précision de reconnaissance de 56,85 % sur CROHME 2014, 52,92 % sur CROHME 2016 et 53,96 % sur CROHME 2019 sans augmentation de données ni combinaison de modèles, surpassant considérablement les méthodes actuelles les plus performantes. Le code source est disponible à l'adresse suivante : https://github.com/XH-B/ABM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance d'expressions mathématiques manuscrites par agrégation d'attention basée sur l'apprentissage mutuel bidirectionnel | Articles | HyperAI