Parameterprognose für unbekannte Deep-Architekturen

Tiefes Lernen hat sich erfolgreich bei der Automatisierung des Feature-Designs in maschinellen Lernpipelines bewährt. Dennoch bleiben die Algorithmen zur Optimierung der Neuronalnetzparameter weitgehend manuell entworfen und rechentechnisch ineffizient. In dieser Studie untersuchen wir, ob tiefes Lernen dazu verwendet werden kann, diese Parameter direkt vorherzusagen, indem es das vergangene Wissen aus dem Training anderer Netze nutzt. Wir stellen einen umfangreichen Datensatz mit vielfältigen Berechnungsgraphen neuronaler Architekturen – DeepNets-1M – vor und nutzen ihn, um die Parameter-Vorhersage auf CIFAR-10 und ImageNet zu erforschen. Indem wir Fortschritte im Bereich der Graph Neural Networks (GNN) nutzen, schlagen wir ein Hypernetzwerk vor, das in einem einzigen Vorwärtsdurchgang innerhalb von Bruchteilen einer Sekunde, selbst auf einem CPU, leistungsfähige Parameter vorhersagen kann. Das vorgeschlagene Modell erzielt überraschend gute Ergebnisse bei unbekannten und vielfältigen Netzwerken. Zum Beispiel ist es in der Lage, alle 24 Millionen Parameter eines ResNet-50 mit einer Genauigkeit von 60 % auf CIFAR-10 vorherzusagen. Auf ImageNet nähert sich die Top-5-Genauigkeit einiger unserer Netzwerke 50 % an. Unsere Aufgabe zusammen mit dem Modell und den Ergebnissen könnte zu einem neuen, rechentechnisch effizienteren Paradigma des Netzwerktrainings führen. Unser Modell lernt zudem eine starke Repräsentation neuronaler Architekturen, die deren Analyse ermöglicht.