vor 3 Monaten

BANANAS: Bayesian Optimization mit neuronalen Architekturen für die neuronale Architektursuche

Colin White, Willie Neiswanger, Yash Savani

Abstract

In den letzten fünf Jahren wurden zahlreiche Ansätze für die neuronale Architektursuche (Neural Architecture Search, NAS) untersucht. Bayesian Optimization (BO), die seit langem Erfolg bei der Hyperparameteroptimierung erzielt hat, ist kürzlich als äußerst vielversprechende Strategie für NAS hervorgetreten, insbesondere dann, wenn sie mit einem neuronalen Vorhersagemodell kombiniert wird. Neuere Arbeiten haben verschiedene Implementierungen dieses Ansatzes vorgeschlagen, beispielsweise die Verwendung von Bayes-Neural Networks oder Graphen-Convolutional Networks als Vorhersagemodell innerhalb von BO. Allerdings konzentrieren sich die Analysen in diesen Arbeiten oft auf den voll ausgestatteten NAS-Algorithmus, weshalb es schwierig ist, zu identifizieren, welche einzelnen Komponenten des Rahmens zur bestmöglichen Leistung beitragen.In dieser Arbeit führen wir eine umfassende Analyse des „BO + neuronales Vorhersagemodell“-Frameworks durch, indem wir fünf zentrale Komponenten identifizieren: die Architektur-Encoderung, das neuronale Vorhersagemodell, die Unsicherheitskalibrierungsmethode, die Auswertungsfunktion (Acquisition Function) und die Strategie zur Optimierung der Auswertungsfunktion. Für jede dieser Komponenten testen wir mehrere unterschiedliche Methoden und entwickeln zudem eine neuartige, pfadbasierte Encoderung für neuronale Architekturen, die wir sowohl theoretisch als auch empirisch als besser skalierend im Vergleich zu anderen Encodierungen nachweisen. Auf Basis all unserer Analysen entwickeln wir einen finalen Algorithmus namens BANANAS, der eine state-of-the-art-Leistung auf gängigen NAS-Suchräumen erzielt. Wir halten uns an die NAS-Forschungscheckliste (Lindauer und Hutter 2019), um Best Practices zu fördern, und stellen unseren Code unter https://github.com/naszilla/naszilla zur Verfügung.