PCANet: Eine einfache Deep-Learning-Baseline für die Bildklassifizierung?

In dieser Arbeit schlagen wir ein sehr einfaches tiefes Lernnetzwerk für die Bildklassifizierung vor, das nur die grundlegendsten Datenverarbeitungskomponenten umfasst: kaskadierte Hauptkomponentenanalyse (PCA), binäres Hashing und Blockhistogramme. In der vorgeschlagenen Architektur wird PCA verwendet, um mehrstufige Filterbänke zu lernen. Dies wird durch einfaches binäres Hashing und Blockhistogramme für Indizierung und Pooling ergänzt. Diese Architektur wird daher als PCA-Netzwerk (PCANet) bezeichnet und kann extrem einfach und effizient entworfen und gelernt werden. Zum Vergleich und besseren Verständnis führen wir zwei einfache Variationen des PCANet ein, nämlich das RandNet und das LDANet. Sie teilen sich die gleiche Topologie wie das PCANet, aber ihre kaskadierten Filter werden entweder zufällig ausgewählt oder von LDA gelernt. Wir haben diese grundlegenden Netzwerke umfangreich auf vielen Benchmark-Datensätzen für verschiedene Aufgaben getestet, darunter LFW für die Gesichtsverifikation, MultiPIE, Extended Yale B, AR und FERET-Datensätze für die Gesichtserkennung sowie MNIST für die Erkennung von handschriftlichen Ziffern. Überraschenderweise erreicht dieses scheinbar naive PCANet-Modell bei allen Aufgaben vergleichbare Ergebnisse mit den besten aktuellen Merkmalen, sei es vorgegebene, hochentwickelte oder sorgfältig gelernte Merkmale (durch Tiefes Neuronales Netzwerke – DNNs). Noch überraschender ist, dass es neue Rekordwerte für viele Klassifikationsaufgaben in den Datensätzen Extended Yale B, AR, FERET und MNIST-Varianten setzt. Zusätzliche Experimente mit anderen öffentlichen Datensätzen zeigen ebenfalls das Potenzial des PCANet als einfache aber hochwettbewerbsfähige Baseline für Texturerkennung und Objekterkennung.