vor 17 Tagen

DrNAS: Dirichlet Neural Architecture Search

Xiangning Chen, Ruochen Wang, Minhao Cheng, Xiaocheng Tang, Cho-Jui Hsieh

Abstract

Diese Arbeit stellt eine neuartige differenzierbare Architektursuche (differentiable NAS) vor, indem sie das Problem als Lernproblem für Verteilungen formuliert. Wir betrachten die kontinuierlich relaxierten Architekturmischgewichte als Zufallsvariablen, die durch eine Dirichlet-Verteilung modelliert werden. Dank kürzlich entwickelter Pfadableitungen (pathwise derivatives) können die Parameter der Dirichlet-Verteilung leicht mit gradientenbasierten Optimierern end-to-end optimiert werden. Diese Formulierung verbessert die Generalisierungsfähigkeit und führt natürlicherweise zu Stochastik, die die Exploration im Architektursuchraum fördert. Darüber hinaus schlagen wir ein einfaches, aber wirksames progressives Lernverfahren vor, um den hohen Speicherverbrauch bei differenzierbarer NAS zu verringern. Dies ermöglicht die Suche direkt auf großskaligen Aufgaben und beseitigt die Diskrepanz zwischen Such- und Evaluierungsphase. Umfangreiche Experimente belegen die Wirksamkeit unseres Ansatzes: So erzielen wir eine Testfehlerquote von 2,46 % auf CIFAR-10 und 23,7 % auf ImageNet im mobilen Szenario. Auf NAS-Bench-201 erreichen wir zudem state-of-the-art-Ergebnisse auf allen drei Datensätzen und liefern zudem wertvolle Erkenntnisse für die effektive Gestaltung von neuronalen Architektursuchalgorithmen.