Effiziente Neuronale Architektur Suche durch Parameterfreigabe

Wir schlagen Efficient Neural Architecture Search (ENAS) vor, einen schnellen und kostengünstigen Ansatz für die automatische Modellgestaltung. Bei ENAS lernt ein Controller neuronale Netzwerkarchitekturen zu entdecken, indem er nach einem optimalen Subgraphen in einem großen Berechnungsgraphen sucht. Der Controller wird mit Policy Gradienten trainiert, um einen Subgraphen auszuwählen, der die erwartete Belohnung auf dem Validierungsdatensatz maximiert. Gleichzeitig wird das Modell, das dem ausgewählten Subgraphen entspricht, trainiert, um eine kanonische Kreuzentropieverlustfunktion zu minimieren. Dank des Parametersharing zwischen den Kindmodellen ist ENAS schnell: es liefert starke empirische Leistungen unter Verwendung deutlich weniger GPU-Stunden als alle bisherigen Ansätze zur automatischen Modellgestaltung und ist insbesondere 1000-mal günstiger als die Standard-Neural-Architecture-Search. Auf dem Penn Treebank-Datensatz entdeckt ENAS eine neuartige Architektur, die eine Test-Perplexität von 55,8 erreicht und damit einen neuen Stand der Technik unter allen Methoden ohne nachfolgende Post-Training-Verarbeitung aufstellt. Auf dem CIFAR-10-Datensatz gestaltet ENAS neuartige Architekturen, die einen Testfehler von 2,89 % erreichen, was mit NASNet (Zoph et al., 2018) vergleichbar ist, dessen Testfehler 2,65 % beträgt.