$Λ$-DARTS: Leistungsabfall durch Harmonisierung der Operationsauswahl zwischen Zellen verringern

Differentiable Neural Architecture Search (DARTS) ist eine gängige Methode für das Neural Architecture Search (NAS), die eine Cell-Suche durchführt und durch kontinuierliche Relaxierung die Sucheffizienz mittels gradientenbasierter Optimierung verbessert. Der Hauptnachteil von DARTS ist das sogenannte Performance Collapse, bei dem die entdeckten Architekturen während des Suchprozesses eine Abnahme der Qualität aufweisen. Performance Collapse ist mittlerweile ein zentrales Forschungsthema, wobei zahlreiche Ansätze entweder durch Regularisierung oder fundamentale Änderungen an DARTS versuchen, dieses Problem zu lösen. Die Gewichts-Teilung (weight-sharing)-Struktur, die für die Cell-Suche in DARTS verwendet wird, sowie die Konvergenz der Architekturparameter wurden bisher jedoch noch nicht ausführlich analysiert. In diesem Paper präsentieren wir eine umfassende und neuartige theoretische sowie empirische Analyse von DARTS und dessen Konvergenzpunkt. Wir zeigen, dass DARTS aufgrund seiner Gewichts-Teilung-Struktur einer spezifischen strukturellen Schwäche unterliegt, die die Konvergenz von DARTS auf Sättigungspunkte der Softmax-Funktion beschränkt. Dieser Konvergenzpunkt begünstigt Schichten, die näher am Ausgang liegen, bei der Auswahl der optimalen Architektur unangemessen, was wiederum zu Performance Collapse führt. Anschließend schlagen wir zwei neue Regularisierungsterme vor, die darauf abzielen, Performance Collapse zu verhindern, indem sie die Operationenauswahl durch Anpassung der Gradienten zwischen Schichten harmonisieren. Experimentelle Ergebnisse auf sechs unterschiedlichen Suchräumen und drei verschiedenen Datensätzen zeigen, dass unsere Methode ($Λ$-DARTS) tatsächlich Performance Collapse verhindert und somit die theoretische Analyse sowie die vorgeschlagene Lösung nachhaltig stützt.