$α$ DARTS erneut: Verbesserung der differenzierbaren Architektursuche durch maskebasierte Bildmodellierung

Differentiable Architecture Search (DARTS) ist zu einer etablierten Richtung im Bereich des automatischen maschinellen Lernens geworden. Da festgestellt wurde, dass die ursprüngliche DARTS-Formulierung zwangsläufig zu schlechten Architekturen konvergiert, haben jüngere Arbeiten dieses Problem durch die Einführung regelbasierter Architektur-Auswahlverfahren oder durch die Integration komplexer Regularisierungstechniken gemildert – wodurch jedoch die ursprüngliche Einfachheit von DARTS aufgegeben wurde, die Architekturen auf Basis des größten parametrischen Wertes, nämlich $α$, auswählt. Darüber hinaus stellen wir fest, dass alle vorherigen Ansätze lediglich auf Klassifikationslabels basieren und somit ausschließlich Informationen aus einer einzigen Modality lernen, was die Darstellungskraft des geteilten Netzwerks einschränkt. Um dies zu beheben, schlagen wir vor, zusätzliche semantische Information durch die Formulierung eines Patch-Rekonstruktionsansatzes einzubringen. Konkret nutzen wir den aktuellen Trend des maskierten Bildmodellierens und behalten den Leitfaden aus den Downstream-Aufgaben während der Architektursuche bei. Unser Ansatz übertrifft alle bisherigen DARTS-Varianten und erreicht state-of-the-art-Ergebnisse auf CIFAR-10, CIFAR-100 und ImageNet – ohne komplizierte, manuell entworfene Strategien.