vor 17 Tagen

iDARTS: Differentiable Architecture Search mit stochastischen impliziten Gradienten

Miao Zhang, Steven Su, Shirui Pan, Xiaojun Chang, Ehsan Abbasnejad, Reza Haffari

Abstract

\textit{Differentiable ARchiTecture Search} (DARTS) ist aufgrund seiner Effizienz und Einfachheit kürzlich zum Standardverfahren im Bereich des Neural Architecture Search (NAS) geworden. Durch eine gradientenbasierte zweistufige Optimierung optimiert DARTS alternierend die inneren Modellgewichte und die äußeren Architekturparameter in einem gewichtsgeteilten Supernet. Eine zentrale Herausforderung für die Skalierbarkeit und Qualität der gelernten Architekturen liegt in der Differentiation durch den inneren Optimierungsschritt. Während zahlreiche potenziell kritische Faktoren in DARTS intensiv diskutiert wurden, erhielt der Architekturgradient – auch Hypergradient genannt – vergleichsweise wenig Aufmerksamkeit. In diesem Paper behandeln wir die Berechnung des Hypergradienten in DARTS basierend auf dem impliziten Funktionstheorem, wodurch die Berechnung ausschließlich von der Lösung des inneren Optimierungsproblems abhängt und unabhängig von dem spezifischen Optimierungspfad ist. Um die Rechenanforderungen weiter zu verringern, formulieren wir eine stochastische Approximation des Hypergradienten für differentiable NAS und zeigen theoretisch, dass die Architekturoptimierung mit dem vorgeschlagenen Verfahren, iDARTS genannt, erwartungsgemäß gegen einen stationären Punkt konvergiert. Umfassende Experimente auf zwei NAS-Benchmark-Suchräumen sowie dem allgemeinen NAS-Suchraum bestätigen die Wirksamkeit unseres Ansatzes. Die dadurch erzeugten Architekturen überlegen denjenigen, die durch die Baseline-Methoden gelernt wurden, deutlich und mit großem Abstand.