Die Kombination der Leistungssteigerungen zusammengesetzter Techniken in einem Faltungsneuralen Netzwerk

Neuere Studien im Bereich der Bildklassifikation haben eine Vielzahl von Techniken zur Verbesserung der Leistung von Convolutional Neural Networks (CNNs) aufgezeigt. Dennoch sind Versuche, bestehende Techniken zu kombinieren, um praktikable Modelle zu entwickeln, bisher selten. In dieser Studie führen wir umfangreiche Experimente durch, um zu bestätigen, dass eine sorgfältige Kombination dieser Techniken und deren Anwendung auf grundlegende CNN-Modelle (z. B. ResNet und MobileNet) die Genauigkeit und Robustheit der Modelle erhöht, während die Durchsatzverluste minimiert werden. Unser vorgeschlagenes zusammengesetztes ResNet-50 erreicht auf dem ILSVRC2012-Validierungsdatensatz eine Steigerung der Top-1-Accuracy von 76,3 % auf 82,78 %, eine Reduktion des mCE von 76,0 % auf 48,9 % und des mFR von 57,7 % auf 32,3 %. Mit diesen Verbesserungen sinkt die Inferenz-Durchsatzleistung lediglich von 536 auf 312. Um die Leistungssteigerung im Kontext von Transfer Learning zu validieren, wurden feinkörnige Klassifikation und Bildretrieval auf mehreren öffentlichen Datensätzen getestet, wobei sich zeigte, dass die Verbesserung der Grundnetzleistung die Transfer-Learning-Leistung signifikant steigert. Unser Ansatz erreichte den 1. Platz beim iFood Competition Fine-Grained Visual Recognition auf CVPR 2019. Der Quellcode und die trainierten Modelle sind unter https://github.com/clovaai/assembled-cnn verfügbar.