sharpDARTS: Schneller und Genauer Differenzierbarer Architektursuche

Die Neural Architecture Search (NAS) hat zu dramatischen Verbesserungen im Design von neuronalen Netzen geführt, wobei jüngste Ergebnisse die Leistung manuell optimierter Architekturen erreichen oder sogar übertreffen. Unser Verständnis davon, wie der Suchraum für neuronale Netzarchitekturen repräsentiert und effizient durchsucht werden kann, befindet sich jedoch noch in den Anfängen.Wir haben eine detaillierte Analyse durchgeführt, um Einschränkungen in einem weit verbreiteten Suchraum und einer aktuellen Architektursuchmethode, der Differentiable Architecture Search (DARTS), zu identifizieren. Diese Erkenntnisse führten uns dazu, neuartige Netzblöcke mit einem allgemeineren, ausgewogeneren und konsistenteren Design einzuführen; einen besser optimierten Cosine Power Annealing-Lernratenplan; sowie andere Verbesserungen. Unsere resultierende sharpDARTS-Suche ist 50 % schneller und zeigt eine relative Verbesserung des Endfehlers von 20-30 % auf CIFAR-10 im Vergleich zu DARTS. Unser bestes Modell erzielt einen Validierungsfehler von 1.93 % (1.98 ± 0.07) auf CIFAR-10 und einen Fehler von 5.5 % (5.8 ± 0.3) auf dem kürzlich veröffentlichten CIFAR-10.1-Testdatensatz. Nach unserem Wissen sind beide Werte für Modelle ähnlicher Größe der Stand der Technik. Dieses Modell verallgemeinert auch wettbewerbsfähig auf ImageNet mit einem Top-1-Fehler von 25.1 % (Top-5-Fehler: 7.8 %).Wir haben Verbesserungen für bestehende Suchräume gefunden, aber verallgemeinert DARTS auf neue Domains? Wir schlagen die Differentiable Hyperparameter Grid Search und den HyperCuboid-Suchraum vor, welche Darstellungen entwickelt wurden, um DARTS für eine allgemeinere Parameteroptimierung zu nutzen. Hier stellen wir fest, dass DARTS bei Vergleichen mit der einstufigen Wahl eines Menschen scheitert, was seine Verallgemeinerungsfähigkeit in Frage stellt. Wir kehren zu den Suchräumen von DARTS und sharpDARTS zurück, um zu verstehen, warum dies der Fall ist, und eine Ablationsstudie enthüllt einen ungewöhnlichen Verallgemeinerungsabstand. Schließlich schlagen wir die Max-W-Regularisierung vor, um dieses Problem zu lösen, die sich als erheblich besser als das manuelle Design herausstellt. Der Code wird zur Verfügung gestellt.注:在德语中,"HyperCuboid" 和 "Max-W Regularisierung" 是比较少见的技术术语,因此保留了英文原词并在首次出现时进行了标注。