Deep CNNs mit räumlich gewichteter Pooling für feinabgestimmte Automobilerkennung
Die feinkörnige Automobilklassifikation zielt darauf ab, Kategoriedaten eines Fahrzeugs zu erkennen, beispielsweise Hersteller, Modell oder sogar das Baujahr. In einer Reihe neuer Studien wurde gezeigt, dass tiefe convolutionale Neuronale Netze (DCNN), die auf großskaligen Datensätzen trainiert wurden, beeindruckende Ergebnisse bei einer Vielzahl allgemeiner Objektklassifikationsaufgaben erzielen können. In diesem Artikel stellen wir eine räumlich gewichtete Pooling-Strategie (SWP) vor, die die Robustheit und Effektivität der Merkmalsdarstellung der meisten dominierenden DCNNs erheblich verbessert. Genauer gesagt handelt es sich bei der SWP um eine neuartige Pooling-Schicht, die eine vordefinierte Anzahl räumlich gewichteter Masken oder Pooling-Kanäle enthält. Die SWP poolt die extrahierten Merkmale von DCNNs unter Anleitung ihrer gelernten Masken, wodurch die Bedeutung der räumlichen Einheiten hinsichtlich ihres diskriminativen Potenzials gemessen wird. Im Gegensatz zu bestehenden Methoden, die eine gleichmäßige Gitter-Pooling-Strategie auf den konvolutionellen Merkmalskarten von DCNNs anwenden, kann die vorgeschlagene Methode die konvolutionellen Merkmale extrahieren und die Pooling-Kanäle aus einem einzigen DCNN generieren. Dadurch ist nur eine minimale Änderung im Implementierungsprozess erforderlich. Darüber hinaus können die Parameter der SWP-Schicht im end-to-end-Trainingsprozess des DCNNs gelernt werden. Durch die Anwendung unserer Methode auf mehrere feinkörnige Automobilklassifikations-Datensätze zeigen wir, dass das vorgeschlagene Verfahren gegenüber jüngeren Ansätzen in der Literatur eine bessere Leistung erzielt. Wir verbessern die Stand der Technik, indem wir die Genauigkeit auf dem Stanford-Cars-196-Datensatz von 92,6 % auf 93,1 % und auf dem jüngeren CompCars-Datensatz von 91,2 % auf 97,6 % steigern. Zudem haben wir die vorgeschlagene Methode auf zwei zusätzliche großskalige Datensätze getestet und dabei beeindruckende Ergebnisse beobachtet.