Reconnaissance de Nombres à Plusieurs Chiffres à Partir d'Images de Vue de Rue Utilisant des Réseaux Neuronaux Convolutifs Profonds

La reconnaissance de textes multicharactères arbitraires dans des photographies naturelles non contraintes est un problème complexe. Dans cet article, nous abordons un sous-problème également difficile dans ce domaine, à savoir la reconnaissance de nombres multichiffres arbitraires à partir d'images de vue de rue. Les approches traditionnelles pour résoudre ce problème séparent généralement les étapes de localisation, de segmentation et de reconnaissance. Nous proposons dans cet article une approche unifiée qui intègre ces trois étapes grâce à l'utilisation d'un réseau neuronal convolutif profond opérant directement sur les pixels de l'image. Nous utilisons l'implémentation DistBelief des réseaux neuronaux profonds afin de former des réseaux neuronaux larges et distribués sur des images de haute qualité. Nous constatons que les performances de cette approche s'améliorent avec la profondeur du réseau neuronal convolutif, atteignant leur meilleur niveau dans l'architecture la plus profonde que nous avons formée, dotée de onze couches cachées. Nous évaluons cette approche sur le jeu de données SVHN (Street View House Numbers) publiquement disponible et obtenons une précision supérieure à 96 % pour la reconnaissance complète des numéros de rue. Nous montrons que pour la tâche de reconnaissance individuelle des chiffres, nous surpassons l'état de l'art en atteignant une précision de 97,84 %. Nous évaluons également cette approche sur un jeu de données encore plus difficile généré à partir d'images de vue de rue contenant plusieurs dizaines de millions d'annotations de numéros de rue et obtenons une précision supérieure à 90 %. Pour explorer davantage la pertinence du système proposé pour des tâches plus vastes de reconnaissance du texte, nous l'appliquons au texte déformé synthétique provenant du reCAPTCHA. Le reCAPTCHA est l'un des tests inverses Turing les plus sécurisés qui utilise du texte déformé pour distinguer les humains des robots. Nous rapportons une précision de 99,8 % sur la catégorie la plus difficile du reCAPTCHA. Nos évaluations sur les deux tâches indiquent que, pour des seuils d'exploitation spécifiques, les performances du système proposé sont comparables voire supérieures à celles des opérateurs humains.