SEE : Vers une reconnaissance de texte scènique semi-supervisée et end-to-end

La détection et la reconnaissance du texte dans les images de scènes naturelles constituent une tâche difficile, bien que non entièrement résolue. Ces dernières années, plusieurs nouveaux systèmes visant à résoudre au moins l’un des deux sous-problèmes (détection du texte ou reconnaissance du texte) ont été proposés. Dans cet article, nous présentons SEE, une étape vers les réseaux neuronaux semi-supervisés pour la détection et la reconnaissance du texte dans les scènes, pouvant être optimisés de manière end-to-end. La plupart des approches existantes reposent sur plusieurs réseaux neuronaux profonds ainsi que sur plusieurs étapes de prétraitement. À la différence de ces méthodes, nous proposons d’utiliser un unique réseau neuronal profond, capable d’apprendre de manière semi-supervisée à détecter et à reconnaître le texte à partir d’images naturelles. SEE est un réseau qui intègre et apprend conjointement un réseau de transformateur spatial, capable d’apprendre à détecter les régions contenant du texte dans une image, et un réseau de reconnaissance du texte qui prend en entrée ces régions identifiées pour en reconnaître le contenu textuel. Nous exposons l'idée fondamentale de notre approche novatrice et en démontrons la faisabilité à travers une série d'expériences menées sur des jeux de données standard, où nous obtenons des résultats compétitifs.