Effiziente globale neuronale Architektursuche

Neural Architecture Search (NAS) hat vielversprechende Ansätze zur Automatisierung des Entwurfs neuronaler Netze für eine gegebene Aufgabe gezeigt, ist jedoch rechenintensiv, da die Bewertung einer großen Anzahl von Architekturen zur Findung der optimalen Lösung hohe Trainingskosten verursacht. Um NAS zu beschleunigen, beschränken jüngste Ansätze die Suche auf Netzwerk-Bausteine (modulare Suche), anstatt die gesamte Architektur zu durchsuchen (globale Suche), approximieren die Leistung von Kandidaten anstelle einer vollständigen Ausbildung und verwenden Gradientenabstieg anstelle von natürlicherweise geeigneten diskreten Optimierungsverfahren. Allerdings bestimmt die modulare Suche nicht die makroarchitektonische Struktur des Netzwerks, also Tiefe und Breite, was nach der Suche manuelle Versuch-und-Irrtum-Methoden erfordert und somit die Automatisierung beeinträchtigt. In dieser Arbeit revidieren wir NAS und entwerfen einen navigierbaren, gleichzeitig architektonisch vielfältigen Makro-Mikro-Suchraum. Zudem verwenden bestehende Methoden zur Bestimmung der relativen Rangfolge von Kandidaten konsistente Approximationen über den gesamten Suchraum hinweg, während verschiedene Netzwerke unter einem einzigen Trainingsprotokoll jedoch nicht gerecht miteinander vergleichbar sein müssen. Daher schlagen wir eine architekturadaptive Approximation mit variablen Trainingsprotokollen für unterschiedliche Netzwerke vor. Außerdem entwickeln wir eine effiziente Suchstrategie, indem wir die makro- und mikroarchitektonische Netzwerkgestaltung trennen, wodurch architektonisch wettbewerbsfähige Lösungen sowohl hinsichtlich Genauigkeit als auch Größe erzielt werden. Unser vorgeschlagenes Framework erreicht eine neue State-of-the-Art-Leistung auf EMNIST und KMNIST und ist zudem hochkompetitiv auf den Datensätzen CIFAR-10, CIFAR-100 und FashionMNIST, wobei es 2–4-mal schneller ist als die schnellsten globalen Suchmethoden. Schließlich zeigen wir die Übertragbarkeit unseres Ansatzes auf reale Computer-Vision-Anwendungen, indem wir wettbewerbsfähige Architekturen für Anwendungen im Bereich Gesichtserkennung entdecken.