TDv2 : Un Décodeur à Structure Arborescente Innovant pour la Reconnaissance Offline d'Expressions Mathématiques
Ces dernières années, les décodeurs arborescents sont devenus plus populaires que les décodeurs de chaînes LaTeX dans le domaine de la reconnaissance d’expressions mathématiques manuscrites (HMER), car ils permettent de capturer la structure hiérarchique des expressions mathématiques. Toutefois, les décodeurs arborescents précédents convertissaient les étiquettes de structure arborescente en une séquence fixe et ordonnée, ce qui ne permettait pas d’exploiter pleinement la diversité des représentations des étiquettes arborescentes. Dans cette étude, nous proposons un nouveau décodeur arborescent (TDv2) afin d’exploiter pleinement les étiquettes de structure arborescente. Contrairement aux décodeurs arborescents antérieurs, ce nouveau modèle ne nécessite pas d’ordre fixe pour les différentes branches d’un nœud lors de l’entraînement et de l’inférence, ce qui améliore efficacement la capacité de généralisation du modèle. L’entrée et la sortie du modèle exploitent pleinement la structure arborescente des étiquettes, de sorte qu’il n’est plus nécessaire de rechercher le nœud parent pendant le processus de décodage. Cela simplifie considérablement le décodage tout en introduisant une information a priori pour aider à prédire les nœuds. Nous avons vérifié l’efficacité de chaque composant du modèle à l’aide d’expériences d’ablation approfondies ainsi que d’une analyse visuelle des attention. Sur les jeux de données prestigieux CROHME 14/16/19, notre méthode atteint des résultats de pointe (state-of-the-art).