Reconnaissance de texte manuscrit paragraphe par bout en bout utilisant un réseau d'attention verticale

La reconnaissance de texte manuscrit non contraint reste un défi pour les systèmes de vision par ordinateur. La reconnaissance de paragraphes est traditionnellement réalisée en deux étapes : un premier modèle pour la segmentation des lignes, suivi d’un second modèle pour la reconnaissance des lignes de texte. Nous proposons un modèle unifié, end-to-end, basé sur un mécanisme d’attention hybride, pour traiter cette tâche. Ce modèle est conçu pour traiter itérativement une image de paragraphe ligne par ligne. Il se compose de trois modules principaux. Un encodeur génère des cartes de caractéristiques à partir de l’image complète du paragraphe. Ensuite, un module d’attention produit de manière récurrente un masque pondéré vertical, permettant de se concentrer sur les caractéristiques de la ligne de texte courante. Cette approche réalise ainsi une forme de segmentation implicite des lignes. Pour chaque ensemble de caractéristiques de ligne de texte, un module décodeur reconnaît la séquence de caractères associée, aboutissant ainsi à la reconnaissance complète du paragraphe. Nous atteignons un taux d’erreur caractères au niveau du paragraphe parmi les meilleurs actuellement enregistrés sur trois jeux de données populaires : 1,91 % pour RIMES, 4,45 % pour IAM et 3,59 % pour READ 2016. Notre code source ainsi que les poids du modèle entraîné sont disponibles à l’adresse suivante : https://github.com/FactoDeepLearning/VerticalAttentionOCR.