Bildaugmentierung für die Objektbildklassifikation basierend auf der Kombination aus vortrainiertem CNN und SVM
Neuronale Netze sind ein leistungsfähiges Mittel zur Klassifikation von Objektbildern. Die vorgeschlagene Methode zur Kategorieklassifikation von Objektbildern kombiniert konvolutionale neuronale Netze (CNNs) und Support-Vektor-Maschinen (SVMs). Als Mustermerkmalsextraktor wird ein vortrainiertes CNN, namens Alex-Net, eingesetzt, das für den großen Objektbild-Datensatz ImageNet vortrainiert wurde. Statt das Netzwerk erneut zu trainieren, wird das für ImageNet vortrainierte Alex-Net verwendet. Als trainierbare Klassifikator dient eine SVM. Die aus Alex-Net gewonnenen Merkmalsvektoren werden an die SVM weitergeleitet. Als Objektbilder werden die Daten des STL-10-Datensatzes verwendet, wobei die Anzahl der Klassen zehn beträgt. Trainings- und Testdaten sind klar getrennt. Die STL-10-Objektbilder werden mit Datenverstärkung durch die SVM trainiert. Wir setzen die Mustertransformation mit der Kosinusfunktion ein und ergänzen dies durch weitere Verstärkungsmethoden wie Rotation, Schrägstellung und elastische Verzerrung. Durch die Anwendung der Kosinusfunktion werden die ursprünglichen Muster linksbündig, rechtsbündig, oberseitig oder unterseitig ausgerichtet; zudem werden Muster zentriert und vergrößert. Durch die Verwendung der Kosinusfunktion sinkt der Testfehler um 0,435 Prozentpunkte von 16,055 % auf 15,620 %. Im Gegensatz dazu steigen die Fehlerraten bei anderen Verstärkungsmethoden wie Rotation, Schrägstellung und elastischer Verzerrung im Vergleich zur unverstärkten Variante. Die Anzahl der vergrößerten Daten beträgt das 30-fache der ursprünglichen 5.000 Trainingsbeispiele des STL-10-Datensatzes. Der experimentelle Testfehler für die 8.000 Testobjekte des STL-10-Datensatzes lag bei 15,620 %, was zeigt, dass die Bildverstärkung effektiv für die Kategorieklassifikation von Bildern ist.