Mehrspaltige Tiefneuronale Netze für die Bildklassifizierung

Traditionelle Methoden der Computer Vision und des maschinellen Lernens können die menschliche Leistung bei Aufgaben wie der Erkennung von handschriftlichen Ziffern oder Verkehrsschildern nicht erreichen. Unsere biologisch plausiblen Architekturen tiefster künstlicher neuronaler Netze können dies. Kleine (oft minimale) Rezeptorfelder von Faltungssieger-Neuronen führen zu einer großen Netzwerktiefe, was eine etwa gleich hohe Anzahl dünn vernetzter neuronaler Schichten ergibt, wie sie bei Säugetieren zwischen Netzhaut und Sehrinde gefunden werden. Nur Siegerneuronen werden trainiert. Mehrere tiefe neuronale Spalten werden zu Experten für Eingaben, die auf verschiedene Weisen vorverarbeitet wurden; ihre Vorhersagen werden durchschnittlich gebildet. Grafikkarten ermöglichen ein schnelles Training. Bei dem sehr wettbewerbsintensiven MNIST-Benchmark für Handschrifterkennung ist unsere Methode die erste, die nahezu menschliche Leistung erzielt. Bei einem Benchmark für die Erkennung von Verkehrsschildern übertrifft sie die menschliche Leistung um den Faktor zwei. Wir verbessern auch den Stand der Technik bei einer Vielzahl gängiger Bildklassifikationsbenchmarks.