Untersuchung der Verlustlandschaft im neuronalen Architektursuchprozess

Neural Architecture Search (NAS) hat in den letzten Jahren ein starkes Aufkommen an Interesse erfahren. Viele Algorithmen für NAS bestehen darin, einen Architekturraum durch wiederholtes Auswählen einer Architektur, deren Leistung durch Training zu bewerten und alle vorherigen Bewertungen zu nutzen, um die nächste Auswahl zu treffen, zu durchsuchen. Der Bewertungsschritt ist jedoch geräuschbehaftet – die endgültige Genauigkeit variiert je nach zufälliger Gewichtsinitialisierung. Vorangegangene Arbeiten haben sich vorwiegend darauf konzentriert, neue Suchalgorithmen zu entwickeln, um dieses Rauschen zu bewältigen, anstatt das Ausmaß des Rauschens bei Architekturbewertungen zu quantifizieren oder zu verstehen. In dieser Arbeit zeigen wir, dass (1) der einfachste Abstiegsalgorithmus (Hill-Climbing) eine leistungsstarke Baseline für NAS darstellt, und (2) dass Hill-Climbing, wenn das Rauschen in gängigen NAS-Benchmark-Datensätzen auf ein Minimum reduziert wird, viele gängige state-of-the-art-Algorithmen übertrifft. Diese Beobachtung stützen wir zusätzlich durch die Feststellung, dass die Anzahl lokaler Minima signifikant abnimmt, wenn das Rauschen sinkt, sowie durch eine theoretische Charakterisierung der Leistung lokaler Suche in NAS. Aufgrund unserer Ergebnisse empfehlen wir für zukünftige NAS-Forschung (1) die Verwendung lokaler Suche als Baseline und (2) die Rauschunterdrückung im Trainingspipeline, soweit möglich.