SPAN : un réseau Simple Predict & Align pour la reconnaissance de paragraphes manuscrits

La reconnaissance de l’écriture manuscrite non contrainte est une tâche essentielle en analyse de documents. Elle est généralement réalisée en deux étapes : premièrement, le document est segmenté en lignes de texte ; ensuite, un modèle de reconnaissance optique de caractères (OCR) est appliqué sur ces images de lignes. Nous proposons le Simple Predict & Align Network (SPAN) : un réseau entièrement convolutif, sans récurrence et end-to-end, capable d’effectuer l’OCR au niveau du paragraphe sans étape préalable de segmentation. Ce cadre est aussi simple que celui utilisé pour la reconnaissance des lignes isolées, et nous obtenons des résultats compétitifs sur trois jeux de données populaires : RIMES, IAM et READ 2016. Le modèle proposé n’exige aucune adaptation au jeu de données, peut être entraîné à partir de zéro sans étiquettes de segmentation, et ne nécessite pas de marques de saut de ligne dans les étiquettes de transcription. Le code source et les poids du modèle entraîné sont disponibles à l’adresse suivante : https://github.com/FactoDeepLearning/SPAN.