Lecture de texte dans des conditions réelles avec des réseaux neuronaux convolutionnels

Dans cette étude, nous présentons un système intégré pour la détection et la reconnaissance de texte dans des images de scènes naturelles, ainsi que pour la recherche d'images basée sur le texte. Ce système repose sur un mécanisme de proposition de régions pour la détection et sur des réseaux neuronaux convolutifs profonds pour la reconnaissance. Notre pipeline utilise une combinaison novatrice de techniques complémentaires de génération de propositions afin d'assurer un taux de rappel élevé, suivi d'une étape rapide de filtrage pour améliorer la précision. Pour la reconnaissance et le classement des propositions, nous formons des réseaux neuronaux convolutifs très larges à effectuer la reconnaissance de mots sur l'ensemble de la région proposée en même temps, rompant ainsi avec les systèmes basés sur des classifieurs de caractères du passé. Ces réseaux sont formés uniquement sur des données produites par un moteur de génération synthétique de texte, sans nécessiter aucune donnée étiquetée manuellement.En analysant les différentes étapes de notre pipeline, nous montrons des performances à l'état de l'art tout au long du processus. Nous menons des expériences rigoureuses sur plusieurs benchmarks standard d'identification intégrée du texte et sur des jeux de données pour la recherche d'images basée sur le texte, démontrant une amélioration significative par rapport à toutes les méthodes précédentes. Enfin, nous illustrons une application concrète de notre système d'identification du texte permettant une recherche instantanée dans des milliers d'heures d'images d'actualités grâce à une requête textuelle.