OrigamiNet : reconnaissance de texte sur toute la page, en un seul passage, sans segmentation et faiblement supervisée, en apprenant à déplier

La reconnaissance de texte est une tâche majeure en vision par ordinateur, associée à un large ensemble de défis. L’un de ces défis traditionnels réside dans le couplage intrinsèque entre la reconnaissance et la segmentation du texte. Ce problème a été progressivement résolu au fil des décennies, passant des approches fondées sur la segmentation à des méthodes sans segmentation, qui se sont avérées plus précises et bien moins coûteuses en termes d’étiquetage des données. Nous franchissons une étape supplémentaire, en nous dirigeant vers une reconnaissance multi-lignes ou complète de page, à partir des méthodes sans segmentation pour une seule ligne. Nous proposons un nouveau module de réseau neuronal simple, appelé \textbf{OrigamiNet}, capable d’augmenter tout reconnaissant de texte entièrement convolutif entraîné par CTC (Connectionist Temporal Classification), pour le transformer en une version multi-lignes. Ce module fournit au modèle une capacité spatiale suffisante afin de comprimer correctement un signal d’entrée 2D en un signal 1D, sans perte d’information. Ces réseaux modifiés peuvent être entraînés exactement selon leur procédure initiale simple, en utilisant uniquement des paires d’images et de textes non segmentés. Nous menons une série d’expériences d’interprétabilité qui démontrent que nos modèles entraînés apprennent implicitement une segmentation précise des lignes. Nous atteignons des taux d’erreur par caractère (CER) au niveau de l’état de l’art sur les benchmarks IAM et ICDAR 2017 pour la reconnaissance d’écriture manuscrite, surpassant ainsi toutes les autres méthodes décrites dans la littérature. Sur IAM, nous surpassons même les méthodes à une seule ligne qui utilisent des informations de localisation précises pendant l’entraînement. Le code est disponible en ligne à l’adresse suivante : \url{https://github.com/IntuitionMachines/OrigamiNet}.