HyperAIHyperAI
vor 2 Monaten

Zufallssuche und Reproduzierbarkeit für die Suche nach neuronalen Architekturen

Liam Li; Ameet Talwalkar
Zufallssuche und Reproduzierbarkeit für die Suche nach neuronalen Architekturen
Abstract

Die Suche nach neuronalen Architekturen (Neural Architecture Search, NAS) ist eine vielversprechende Forschungsrichtung, die das Potenzial hat, von Experten entworfene Netzwerke durch gelernte, aufgabenbezogene Architekturen zu ersetzen. In dieser Arbeit möchten wir die empirischen Ergebnisse in diesem Bereich stützen und schlagen neue NAS-Baselines vor, die sich auf folgende Beobachtungen stützen: (i) NAS ist ein spezialisiertes Optimierungsproblem für Hyperparameter; und (ii) die zufällige Suche ist ein wettbewerbsfähiger Baseline für die Optimierung von Hyperparametern. Unter Nutzung dieser Erkenntnisse evaluieren wir sowohl die zufällige Suche mit Early-Stopping als auch einen neuen Algorithmus der zufälligen Suche mit Gewichts-Teilen an zwei Standard-NAS-Benchmarks – PTB und CIFAR-10. Unsere Ergebnisse zeigen, dass die zufällige Suche mit Early-Stopping ein wettbewerbsfähiger NAS-Baseline ist, zum Beispiel erreicht sie mindestens ebenso gute Ergebnisse wie ENAS, eine führende NAS-Methode, bei beiden Benchmarks. Zudem übertrifft die zufällige Suche mit Gewichts-Teilen die zufällige Suche mit Early-Stopping und erzielt sowohl einen Stand der Technik übertreffenden NAS-Ergebnis bei PTB als auch ein hochwettbewerbsfähiges Ergebnis bei CIFAR-10. Schließlich untersuchen wir bestehende Reproduzierbarkeitsprobleme veröffentlichter NAS-Ergebnisse. Wir weisen auf den Mangel an Quellenmaterial hin, das erforderlich ist, um diese Ergebnisse exakt zu reproduzieren, und diskutieren ferner die Robustheit der veröffentlichten Ergebnisse im Hinblick auf verschiedene Variabilitätsquellen in den NAS-Experimentalaufbauten. Im Zusammenhang damit stellen wir alle Informationen (Code, Zufallssamen, Dokumentation) zur Verfügung, die notwendig sind, um unsere Ergebnisse exakt zu reproduzieren, und berichten über unsere Ergebnisse der zufälligen Suche mit Gewichts-Teilen für jeden Benchmark bei mehreren Durchläufen.