vor einem Monat

Entdeckung neuronaler Verkabelungen

Mitchell Wortsman; Ali Farhadi; Mohammad Rastegari

Abstract

Der Erfolg von neuronalen Netzen hat den Fokus von der Merkmalsextraktion zur Architekturkonstruktion verschoben. Dennoch werden erfolgreiche Netzwerke heute mit einer kleinen und manuell definierten Menge an Bausteinen aufgebaut. Auch bei Methoden der neuronalen Architektursuche (NAS) sind die Verbindungsstruktur der Netzwerke weitgehend eingeschränkt. In dieser Arbeit schlagen wir eine Methode vor, um neuronale Verkabelungen zu entdecken. Wir lockern das übliche Konzept von Schichten und ermöglichen es stattdessen, dass Kanäle unabhängig voneinander Verbindungen bilden. Dies erlaubt einen viel größeren Raum möglicher Netzwerke. Die Verkabelung unseres Netzwerks ist während des Trainings nicht festgelegt – während wir die Netzwerkparameter lernen, lernen wir auch die Struktur selbst. Unsere Experimente zeigen, dass unsere gelernten Verbindungen sowohl handgefertigte als auch zufällig verkabelte Netzwerke übertrumpfen. Durch das Lernen der Verbindungen von MobileNetV1 können wir die Genauigkeit auf ImageNet bei etwa 41 Millionen FLOPs um 10 % verbessern. Darüber hinaus zeigen wir, dass unsere Methode auf rekurrente und kontinuierliche Zeitnetzwerke übertragbar ist. Unser Werk kann auch als Vereinigung wesentlicher Aspekte des Problems der neuronalen Architektursuche mit dem Lernen dünnbesetzter neuronaler Netze angesehen werden. Da NAS zunehmend feingranular wird, gleicht das Finden einer guten Architektur dem Finden eines dünnbesetzten Teilnetzes eines vollständigen Graphen. Demgemäß bietet DNW ein effektives Mechanismus, um dünnbesetzte Teilnetze vorgegebener Architekturen in einem einzigen Trainingslauf zu entdecken. Obwohl wir während des Vorwärtsdurchgangs nur einen kleinen Prozentsatz der Gewichte verwenden, spielen wir immer noch das sogenannte Initialisierungslottery mit einer kombinatorischen Anzahl von Teilnetzen. Der Quellcode und vorab trainierte Modelle sind unter https://github.com/allenai/dnw verfügbar, während zusätzliche Visualisierungen unter https://mitchellnw.github.io/blog/2019/dnw/ zu finden sind.