vor 17 Tagen

One-Shot Neural Architecture Search via Self-Evaluated Template Network

Xuanyi Dong, Yi Yang

Abstract

Neural Architecture Search (NAS) zielt darauf ab, den Suchprozess für Architekturen zu automatisieren, anstatt sie manuell zu entwerfen. Obwohl neuere NAS-Ansätze die Suche innerhalb von Tagen abschließen können, bleibt die ausführliche Trainingsphase für eine spezifische Architektur-Kandidatin weiterhin erforderlich, um die Parameter für eine genaue Bewertung zu erhalten. Kürzlich wurden ein-Schritt-NAS-Methoden vorgeschlagen, um den zeitaufwändigen Trainingsprozess erheblich zu verkürzen, indem Parameter zwischen verschiedenen Kandidaten geteilt werden. Auf diese Weise können die Parameter für jeden Kandidaten direkt aus den gemeinsam genutzten Parametern extrahiert werden, anstatt sie von Grund auf neu zu trainieren. Allerdings haben diese Ansätze keine Vorhersagekraft hinsichtlich der Leistungsfähigkeit eines Kandidaten, bevor diese bewertet wurde. Daher werden die zu bewertenden Kandidaten zufällig ausgewählt, und der Kandidat mit der besten Leistung (Top-1) wird als bester angesehen. In diesem Paper stellen wir ein Self-Evaluated Template Network (SETN) vor, um die Qualität der Architektur-Kandidaten für die Bewertung zu verbessern, sodass es wahrscheinlicher ist, dass wettbewerbsfähige Kandidaten erfasst werden. SETN besteht aus zwei Komponenten: (1) einem Evaluationsmodul, das lernt, die Wahrscheinlichkeit für jeden einzelnen Architektur-Kandidaten zu schätzen, dass dieser eine geringere Validierungsverluste aufweist. Auf Basis dieser Einschätzung können die Kandidaten gezielt ausgewählt werden. (2) einem Template-Netzwerk, das Parameter über alle Kandidaten hinweg gemeinsam nutzt, um die Trainingskosten der generierten Kandidaten zu verringern. In Experimenten erreicht die von SETN gefundene Architektur auf den Benchmarks CIFAR und ImageNet eine state-of-the-art-Leistung bei vergleichbaren Rechenkosten. Der Quellcode ist öffentlich auf GitHub verfügbar: https://github.com/D-X-Y/AutoDL-Projects.