vor 17 Tagen

AlphaNet: Verbessertes Training von Supernetzen mit Alpha-Divergenz

Dilin Wang, Chengyue Gong, Meng Li, Qiang Liu, Vikas Chandra

Abstract

Gewichtsteilungsbasierte neuronale Architektursuche (NAS) ist eine effektive Technik zur Automatisierung des Entwurfs effizienter neuronaler Architekturen. Gewichtsteilungsbasierte NAS baut ein Supernetz auf, das alle Architekturen als Unterarchitekturen enthält und gemeinsam das Supernetz mit diesen Unterarchitekturen trainiert. Der Erfolg von Gewichtsteilungsbasierte NAS beruht stark auf der Wissens-Distillation vom Supernetz auf die Unterarchitekturen. Wir stellen jedoch fest, dass die weit verbreitete Divergenzmaßnahme zur Distillation, nämlich die Kullback-Leibler-Divergenz (KL-Divergenz), dazu führen kann, dass die Schüler-Unterarchitekturen die Unsicherheit des Lehrer-Supernetzes über- oder unterschätzen, was zu einer schlechteren Leistung der Unterarchitekturen führt. In dieser Arbeit schlagen wir vor, das Training des Supernetzes mit einer allgemeineren Alpha-Divergenz zu verbessern. Durch adaptives Auswählen der Alpha-Divergenz verhindern wir gleichzeitig die Über- und Unterschätzung der Unsicherheit des Lehrermodells. Wir wenden das vorgeschlagene, auf Alpha-Divergenz basierende Training von Supernetzen sowohl auf schlanke neuronale Netzwerke als auch auf Gewichtsteilungsbasierte NAS an und zeigen signifikante Verbesserungen. Insbesondere übertrifft unsere entdeckte Modellfamilie, AlphaNet, bestehende Ansätze in einer Vielzahl von FLOPs-Bereichen, darunter BigNAS, Once-for-All-Netzwerke und AttentiveNAS. Mit nur 444 M FLOPs erreichen wir eine ImageNet-Top-1-Accuracy von 80,0 %. Unser Code und vortrainierte Modelle sind unter https://github.com/facebookresearch/AlphaNet verfügbar.