vor 2 Monaten

Neuronale Architekturoptimierung

Renqian Luo; Fei Tian; Tao Qin; Enhong Chen; Tie-Yan Liu

Abstract

Die automatische Designierung neuronaler Architekturen hat ihr Potenzial in der Entdeckung leistungsfähiger Neuronalnetz-Architekturen gezeigt. Bestehende Methoden, sei es auf Verstärkungslernen oder evolutionären Algorithmen (EA) basierend, führen die Architektursuche in einem diskreten Raum durch, was äußerst ineffizient ist. In dieser Arbeit schlagen wir eine einfache und effiziente Methode zur automatischen Designierung neuronaler Architekturen vor, die auf kontinuierlicher Optimierung basiert. Wir nennen diesen neuen Ansatz Neuronale Architekturoptimierung (NAO). Unser vorgeschlagener Ansatz besteht aus drei wesentlichen Komponenten: (1) Ein Encoder kodiert/abbildet neuronale Netzarchitekturen in einen kontinuierlichen Raum. (2) Ein Prädiktor nimmt die kontinuierliche Darstellung eines Netzes als Eingabe entgegen und prognostiziert dessen Genauigkeit. (3) Ein Decoder bildet eine kontinuierliche Darstellung eines Netzes zurück auf dessen Architektur ab. Der Leistungsprädiktor und der Encoder ermöglichen es uns, eine gradientenbasierte Optimierung im kontinuierlichen Raum durchzuführen, um die Kodierung einer neuen Architektur mit potentiell höherer Genauigkeit zu finden. Eine solche verbesserte Kodierung wird dann durch den Decoder in ein Netzwerk decodiert. Experimente zeigen, dass die von unserer Methode entdeckte Architektur sehr wettbewerbsfähig für die Bildklassifizierungsaufgabe auf CIFAR-10 und die Sprachmodellieraufgabe auf PTB ist, wobei sie die besten Ergebnisse früherer Architektursuchmethoden übertrifft oder gleichwertig ist, bei erheblich reduzierten Rechenressourcen. Speziell erreichen wir einen Testfehler von 1,93 % für die Bildklassifizierungsaufgabe auf CIFAR-10 und eine Testverwirrtheit von 56,0 für die Sprachmodellieraufgabe auf PTB. Des Weiteren kombinieren wir unseren Ansatz mit dem kürzlich vorgeschlagenen Mechanismus des Gewichteteilens und entdecken leistungsfähige Architekturen auf CIFAR-10 (mit einem Fehler von 2,93 %) und auf PTB (mit einer Testverwirrtheit von 56,6), wobei für beide Aufgaben sehr begrenzte Rechenressourcen (weniger als 10 GPU-Stunden) erforderlich sind.