HyperAIHyperAI
vor 2 Monaten

Erkennung von mehrstelligen Zahlen aus Straßenszenen mit tiefen Faltungsneuralnetzen

Ian J. Goodfellow; Yaroslav Bulatov; Julian Ibarz; Sacha Arnoud; Vinay Shet
Erkennung von mehrstelligen Zahlen aus Straßenszenen mit tiefen Faltungsneuralnetzen
Abstract

Die Erkennung beliebiger mehrzeichenbasierter Texte in unbeschränkten natürlichen Fotografien ist ein schwieriges Problem. In dieser Arbeit adressieren wir ein ebenso schwieriges Teilproblem in diesem Bereich, nämlich die Erkennung beliebiger mehrstelliger Zahlen aus Straßenszenenbildern (Street View imagery). Traditionelle Ansätze zur Lösung dieses Problems trennen in der Regel die Schritte der Lokalisierung, Segmentierung und Erkennung. In dieser Arbeit schlagen wir einen vereinten Ansatz vor, der diese drei Schritte durch den Einsatz eines tiefen Faltungsnetzes (Convolutional Neural Network) direkt auf den Bildpixeln integriert. Wir verwenden die DistBelief-Implementierung von tiefen neuronalen Netzen, um große, verteilte neuronale Netze mit hochwertigen Bildern zu trainieren. Wir stellen fest, dass die Leistungsfähigkeit dieses Ansatzes mit der Tiefe des Faltungsnetzes steigt, wobei die beste Leistung bei der tiefsten Architektur erreicht wird, die wir trainiert haben – einem Netzwerk mit elf verborgenen Schichten. Wir evaluieren diesen Ansatz am öffentlich zugänglichen SVHN-Datensatz und erzielen eine Genauigkeit von über 96 % bei der Erkennung vollständiger Hausnummern. Bei der Aufgabe der Ziffernerkennung verbessern wir den Stand der Technik und erreichen eine Genauigkeit von 97,84 %. Wir evaluieren diesen Ansatz auch an einem noch herausfordernderen Datensatz, generiert aus Straßenszenenbildern mit mehreren zehn Millionen Hausnummerannotierungen, und erzielen eine Genauigkeit von über 90 %. Um die Anwendbarkeit des vorgeschlagenen Systems für umfassendere Texterkennungsaufgaben weiter zu erforschen, wenden wir es auf synthetisch verzerrten Text aus reCAPTCHA an. reCAPTCHA ist einer der sichersten Reverse-Turing-Tests, der verzerrten Text verwendet, um Menschen von Bots zu unterscheiden. Wir berichten eine Genauigkeit von 99,8 % in der schwierigsten Kategorie von reCAPTCHA. Unsere Evaluierungen beider Aufgaben zeigen, dass bei spezifischen Betriebsgrenzwerten die Leistung des vorgeschlagenen Systems vergleichbar mit und in manchen Fällen sogar höher als die menschlicher Operatoren ist.