BaLeNAS: Differentiable Architecture Search via the Bayesian Learning Rule

Differentiable Architecture Search (DARTS) hat in den letzten Jahren erhebliche Aufmerksamkeit erfahren, hauptsächlich weil er die Rechenkosten signifikant durch Gewichtsteilung und kontinuierliche Relaxierung reduziert. Allerdings zeigen neuere Arbeiten, dass bestehende differentiable NAS-Techniken Schwierigkeiten haben, naive Baselines zu überbieten, wodurch sich im Laufe des Suchprozesses abwertende Architekturen ergeben. Anstatt die Architekturparameter direkt zu optimieren, formuliert dieser Artikel das Neural Architecture Search als ein Lernproblem von Verteilungen, indem die Architekturgewichte in Gaussverteilungen relaxiert werden. Durch die Nutzung der Natural-Gradient Variational Inference (NGVI) kann die Architekturverteilung leicht anhand bestehender Codebases optimiert werden, ohne zusätzlichen Speicher- oder Rechenaufwand zu verursachen. Wir zeigen, wie differentiable NAS von bayesschen Prinzipien profitiert, wodurch die Exploration verbessert und die Stabilität erhöht wird. Die experimentellen Ergebnisse auf den Benchmark-Datensätzen NAS-Bench-201 und NAS-Bench-1shot1 bestätigen die erheblichen Verbesserungen, die der vorgeschlagene Rahmen ermöglicht. Darüber hinaus nutzen wir anstelle einer einfachen Anwendung des argmax auf die gelernten Parameter kürzlich vorgeschlagene trainingsfreie Proxy-Metriken im NAS, um die optimale Architektur aus einer Gruppe von Architekturen, die aus der optimierten Verteilung gezogen wurden, auszuwählen. Mit diesem Ansatz erreichen wir state-of-the-art Ergebnisse auf den Benchmarks NAS-Bench-201 und NAS-Bench-1shot1. Unser beste Architektur im DARTS-Suchraum erzielt zudem konkurrenzfähige Testfehler von 2,37 %, 15,72 % und 24,2 % auf den Datensätzen CIFAR-10, CIFAR-100 und ImageNet, jeweils.