Start, Follow, Read : Reconnaissance end-to-end d'écriture manuscrite intégrale

Malgré des décennies de recherches, la reconnaissance de l’écriture manuscrite hors ligne (HWR) dans les documents historiques dégradés reste un problème difficile, dont la résolution pourrait considérablement améliorer la recherche dans les archives culturelles numériques. Les modèles de HWR sont souvent limités par la précision des étapes précédentes, telles que la détection et la segmentation du texte. Inspirés par ce défi, nous proposons un modèle d’apprentissage profond qui apprend simultanément la détection, la segmentation et la reconnaissance du texte, en s’appuyant principalement sur des images ne comportant pas d’étiquettes de détection ou de segmentation. Notre modèle Start, Follow, Read (SFR) repose sur un réseau de proposition de régions pour identifier la position de départ des lignes de texte, combiné à un nouveau réseau de suivi de ligne qui suit progressivement les lignes (éventuellement courbées) et les prétraite en images déformées, adaptées à la reconnaissance par un réseau CNN-LSTM. Le modèle SFR dépasse les performances du gagnant de la compétition ICDAR2017 de reconnaissance d’écriture manuscrite, même sans utiliser les annotations de région fournies par la compétition.