Un décodeur structuré en arbre pour la génération de balisage à partir d'images
Les approches récentes basées sur l’encodage-décodage utilisent généralement des décodeurs de chaînes pour convertir les images en chaînes sérialisées dans le cadre de la reconnaissance d’images vers le balisage. Toutefois, pour un balisage représentant une structure arborescente, les représentations sous forme de chaîne peinent à gérer la complexité structurelle. Dans ce travail, nous montrons tout d’abord, à l’aide d’un ensemble de problèmes simples, que les décodeurs de chaînes éprouvent des difficultés à déchiffrer des structures arborescentes, notamment lorsque la complexité structurelle augmente. Nous proposons ensuite un décodeur structuré en arbre, spécifiquement conçu pour générer un balisage de structure arborescente. Notre décodeur fonctionne de manière séquentielle, où à chaque étape, un nœud enfant et son nœud parent sont générés simultanément afin de former un sous-arbre. Ce sous-arbre est ensuite utilisé de manière récurrente pour construire la structure arborescente finale. La clé du succès de notre décodeur repose sur deux aspects fondamentaux : (i) il respecte strictement la relation parent-enfant propre aux arbres, et (ii) il produit explicitement une structure arborescente, contrairement à une chaîne linéaire. Évalué sur la reconnaissance de formules mathématiques et de formules chimiques, le décodeur arborescent proposé s’avère nettement supérieur aux modèles de décodeurs de chaînes performants.