Suche nach einer robusten neuronalen Architektur in vier GPU-Stunden

Herkömmliche Ansätze zur neuronalen Architektursuche (Neural Architecture Search, NAS) basieren auf Verstärkungslernen oder evolutionären Strategien und benötigen mehr als 3000 GPU-Stunden, um auf CIFAR-10 ein gutes Modell zu finden. Wir stellen einen effizienten NAS-Ansatz vor, der durch Gradientenabstieg lernt, zu suchen. Unser Ansatz stellt den Suchraum als gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) dar. Dieser DAG enthält Milliarden von Teilgraphen, wobei jeder Teilgraph eine bestimmte neuronale Architektur repräsentiert. Um die vollständige Durchsuchung aller möglichen Teilgraphen zu vermeiden, entwickeln wir einen differenzierbaren Sampler über dem DAG. Dieser Sampler ist lernbar und wird durch das Validierungsverlust nach dem Training der jeweils ausgewählten Architektur optimiert. Auf diese Weise kann unser Ansatz end-to-end mittels Gradientenabstieg trainiert werden und wird Gradientenbasierte Suche mit differenzierbarem Architektursampler (Gradient-based search using Differentiable Architecture Sampler, GDAS) genannt. In Experimenten gelingt es uns, einen Suchvorgang auf CIFAR-10 innerhalb von lediglich vier GPU-Stunden abzuschließen. Das entdeckte Modell erreicht eine Testfehlerquote von 2,82 % mit lediglich 2,5 Mio. Parametern und ist damit auf dem Niveau des derzeitigen Standes der Technik. Der Quellcode ist öffentlich auf GitHub verfügbar: https://github.com/D-X-Y/NAS-Projects.