Données Synthétiques pour la Localisation de Texte dans les Images Naturelles

Dans cet article, nous présentons une nouvelle méthode pour la détection de texte dans les images naturelles. Cette méthode comporte deux contributions principales : premièrement, un moteur rapide et évolutif pour générer des images synthétiques de texte en milieu complexe. Ce moteur superpose du texte synthétique à des images de fond existantes d'une manière naturelle, en tenant compte de la géométrie 3D locale de la scène. Deuxièmement, nous utilisons ces images synthétiques pour entraîner un Réseau de Régression Convolutif Entièrement Convolutif (FCRN) qui effectue efficacement la détection de texte et la régression des boîtes englobantes à tous les emplacements et à plusieurs échelles dans une image. Nous discutons également du rapport entre le FCRN et le détecteur YOLO récemment introduit, ainsi que d'autres systèmes de détection d'objets bout-à-bout basés sur l'apprentissage profond. Le réseau de détection résultant dépasse considérablement les méthodes actuelles pour la détection de texte dans les images naturelles, atteignant un F-mesure de 84,2% sur le benchmark standard ICDAR 2013. De plus, il peut traiter 15 images par seconde sur une GPU.