MSR-DARTS: Minimum Stable Rank of Differentiable Architecture Search

In der neuronalen Architektursuche (Neural Architecture Search, NAS) hat die differenzierbare Architektursuche (Differentiable Architecture Search, DARTS) aufgrund ihrer hohen Effizienz in letzter Zeit erhebliche Aufmerksamkeit erhalten. Sie definiert ein überparametrisiertes Netzwerk mit gemischten Kanten, wobei jede Kante alle möglichen Operatorkandidaten repräsentiert, und optimiert die Gewichte des Netzwerks sowie dessen Architektur alternierend gemeinsam. Allerdings findet diese Methode ein Modell, dessen Gewichte schneller konvergieren als die anderer Modelle, wobei solche Modelle mit der schnellsten Konvergenz häufig zu Überanpassung führen. Hierdurch kann das resultierende Modell nicht immer gut generalisieren. Um dieses Problem zu überwinden, schlagen wir eine Methode namens Minimum Stable Rank DARTS (MSR-DARTS) vor, die ein Modell mit der besten Generalisierungsfehlerleistung findet, indem sie die Architekturoptimierung durch einen Auswahlprozess basierend auf dem Kriterium des minimalen stabilen Rangs ersetzt. Konkret wird ein Faltungsoperator durch eine Matrix repräsentiert, und MSR-DARTS wählt denjenigen mit dem kleinsten stabilen Rang aus. Wir haben MSR-DARTS anhand der Datensätze CIFAR-10 und ImageNet evaluiert. Es erreicht eine Fehlerrate von 2,54 % bei 4,0 Mio. Parametern innerhalb von 0,3 GPU-Tagen auf CIFAR-10 und eine Top-1-Fehlerrate von 23,9 % auf ImageNet. Der offizielle Code ist unter https://github.com/mtaecchhi/msrdarts.git verfügbar.