Effiziente neuronale Architektursuche durch Parameterfreigabe

Wir stellen Efficient Neural Architecture Search (ENAS) vor, eine schnelle und kostengünstige Methode für die automatische Modellgestaltung. ENAS konstruiert einen großen Berechnungsgraphen, wobei jeder Teilgraph eine neuronale Netzarchitektur darstellt, wodurch alle Architekturen ihre Parameter gemeinsam nutzen müssen. Ein Controller wird mit Policy Gradient trainiert, um einen Teilgraphen zu finden, der den erwarteten Belohnungswert auf einem Validierungsset maximiert. Gleichzeitig wird ein Modell, das dem ausgewählten Teilgraphen entspricht, trainiert, um einen klassischen Kreuzentropieverlust zu minimieren. Die gemeinsame Nutzung von Parametern zwischen den Kindmodellen ermöglicht es ENAS, starke empirische Leistungen zu erzielen, während gleichzeitig deutlich weniger GPU-Stunden im Vergleich zu bestehenden Ansätzen zur automatischen Modellgestaltung benötigt werden – insbesondere ist ENAS um den Faktor 1000 kostengünstiger als die herkömmliche Neural Architecture Search. Auf dem Penn Treebank entdeckt ENAS eine neue Architektur, die eine Test-Perplexität von 56,3 erreicht, was dem bisherigen Stand der Technik bei allen Methoden ohne Nach-Training-Verarbeitung entspricht. Auf CIFAR-10 findet ENAS eine neue Architektur, die eine Testfehlerquote von 2,89 % erreicht, was dem Ergebnis von NASNet (Zoph et al., 2018) mit 2,65 % Testfehler nahekommt.