Lernen von übertragbaren Architekturen für skalierbare Bilderkennung

Die Entwicklung von neuronalen Netzwerken für die Bildklassifizierung erfordert oft erhebliche Architekturoptimierung. In dieser Arbeit untersuchen wir eine Methode, um die Modellarchitekturen direkt auf dem gewünschten Datensatz zu lernen. Da dieser Ansatz bei großen Datensätzen kostspielig ist, schlagen wir vor, ein architektonisches Bauteil auf einem kleinen Datensatz zu suchen und dieses dann auf einen größeren Datensatz zu übertragen. Der wesentliche Beitrag dieser Arbeit besteht in der Gestaltung eines neuen Suchraums (des "NASNet-Suchraums"), der die Übertragbarkeit ermöglicht. In unseren Experimenten suchen wir nach der besten Faltungsschicht (oder "Zelle") im CIFAR-10-Datensatz und wenden diese Zelle dann auf den ImageNet-Datensatz an, indem wir mehrere Kopien dieser Zelle mit jeweils eigenen Parametern stapeln, um eine Faltungsarchitektur zu entwerfen, die als "NASNet-Architektur" bezeichnet wird. Wir stellen außerdem eine neue Regularisierungstechnik namens ScheduledDropPath vor, die die Generalisierungsfähigkeit der NASNet-Modelle erheblich verbessert. Auf dem CIFAR-10-Datensatz erreicht NASNet selbst einen Fehlerwert von 2,4 %, was den aktuellen Stand der Technik darstellt. Auf ImageNet erreicht NASNet unter den veröffentlichten Arbeiten eine Top-1-Akkuratesse von 82,7 % und eine Top-5-Akkuratesse von 96,2 %. Unser Modell ist in der Top-1-Akkuratesse 1,2 % besser als das beste menschlich entwickelte Modell und verfügt dabei über 9 Milliarden weniger FLOPS – dies entspricht einer Reduktion des Rechenaufwands um 28 % im Vergleich zum bisherigen Stand der Technik. Bei verschiedenen Ebenen des Rechenaufwands übertreffen die Akkuratessewerte der NASNets jene des aktuellen Standes der Technik bei menschlich gestalteten Modellen. Zum Beispiel erreicht eine kleinere Version von NASNet auch eine Top-1-Akkuratesse von 74 %, was 3,1 % besser ist als vergleichbare Modelle für mobile Plattformen am aktuellen Stand der Technik. Schließlich übertreffen die durch NASNet gelernten Merkmale in Verbindung mit dem Faster-RCNN-Framework den aktuellen Stand der Technik um 4,0 % und erreichen einen mAP-Wert von 43,1 % im COCO-Datensatz.