Geometriebewusste Gradienten-Algorithmen für die neuronale Architektursuche

Neueste Ansätze im Bereich des Neural Architecture Search (NAS) nutzen gradientenbasierte Optimierung, indem das ursprünglich diskrete Suchproblem kontinuierlich über Architekturen und geteilte Gewichte relaxiert wird – ein störanfälliger Prozess, der bisher nur unzureichend verstanden ist. Wir plädieren dafür, die Untersuchung der einstufigen empirischen Risikominimierung zur Vertiefung des Verständnisses von NAS mit Gewichtsteilung voranzutreiben, wodurch die Entwicklung von NAS-Methoden auf die Konstruktion von Optimierern und Regularisierern reduziert wird, die rasch hochwertige Lösungen für dieses Problem erzielen können. Ausgehend von der Theorie des Mirror Descent präsentieren wir einen geometriebewussten Rahmen, der die zugrundeliegende Struktur dieser Optimierung nutzt, um spärliche architektonische Parameter zu erzeugen. Dies führt zu einfachen, aber neuen Algorithmen, die schnelle Konvergenzgarantien aufweisen und auf den neuesten NAS-Benchmarks im Bereich des maschinellen Sehens Spitzenleistungen erzielen. Insbesondere übertreffen wir die bisher besten veröffentlichten Ergebnisse sowohl für CIFAR als auch für ImageNet – sowohl im DARTS-Suchraum als auch in NAS-Bench201; auf letzterem erreichen wir nahezu oracle-optimalen Performance-Wert für CIFAR-10 und CIFAR-100. Zusammen zeigen unsere Theorie und Experimente einen fundierten Ansatz zur gleichzeitigen Ko-Design von Optimierern und kontinuierlichen Relaxierungen diskreter NAS-Suchräume.