HyperAIHyperAI
vor 18 Tagen

Blockweise überwachte neuronale Architektursuche mit Wissensdistillation

Changlin Li, Jiefeng Peng, Liuchun Yuan, Guangrun Wang, Xiaodan Liang, Liang Lin, Xiaojun Chang
Blockweise überwachte neuronale Architektursuche mit Wissensdistillation
Abstract

Neural Architecture Search (NAS), das darauf abzielt, Netzwerkarchitekturen automatisch durch Maschinen zu entwerfen, wird als treibende Kraft einer neuen Revolution im maschinellen Lernen angesehen. Trotz dieser hohen Erwartungen bleibt die Effektivität und Effizienz bestehender NAS-Lösungen unklar; einige neuere Arbeiten gehen sogar so weit, zu behaupten, dass viele bestehende NAS-Methoden nicht besser als eine zufällige Architekturauswahl sind. Die Ineffizienz von NAS-Lösungen kann möglicherweise auf eine ungenaue Bewertung von Architekturen zurückzuführen sein. Insbesondere versuchen jüngere Ansätze, die NAS-Geschwindigkeit zu erhöhen, durch gleichzeitiges Untertrainieren verschiedener Kandidatenarchitekturen in einem großen Suchraum unter Verwendung geteilter Netzwerkparameter; dies führt jedoch zu fehlerhaften Architekturbewertungen und verschärft die Unwirksamkeit von NAS.In dieser Arbeit schlagen wir vor, den großen Suchraum von NAS modular in Blöcke zu unterteilen, um sicherzustellen, dass die potenziellen Kandidatenarchitekturen vollständig trainiert werden. Dadurch wird der durch geteilte Parameter verursachte Darstellungsshift reduziert, was zu korrekten Bewertungen der Kandidaten führt. Dank des blockweisen Suchansatzes können wir zudem alle Kandidatenarchitekturen innerhalb eines Blocks bewerten. Darüber hinaus stellen wir fest, dass das Wissen eines Netzwerkmodells nicht nur in den Netzwerkparametern, sondern auch in der Netzwerkarchitektur selbst liegt. Daher schlagen wir vor, das architektonische Wissen (DNA) eines Lehrmodells zu extrahieren und als Supervision zur Leitung unseres blockweisen Architektursuchprozesses zu nutzen, was die Effektivität von NAS erheblich verbessert. Bemerkenswerterweise übertrifft die Kapazität unserer gesuchten Architektur das Lehrmodell, was die Praktikabilität und Skalierbarkeit unserer Methode belegt. Schließlich erreicht unsere Methode eine state-of-the-art-Genauigkeit von 78,4 % bei Top-1 auf ImageNet im mobilen Einsatz – eine Verbesserung um etwa 2,1 % gegenüber EfficientNet-B0. Alle von uns gefundenen Modelle sowie der Bewertungscode sind öffentlich zugänglich.