vor 11 Tagen

Die Lotterie manipulieren: Alle Lose zu Gewinnern machen

Utku Evci, Trevor Gale, Jacob Menick, Pablo Samuel Castro, Erich Elsen

Abstract

Viele Anwendungen erfordern spärliche neuronale Netzwerke aufgrund von Speicher- oder Inferenzzeitbeschränkungen. Es existiert eine umfangreiche Forschungsliteratur zur Trainingsstrategie dichter Netzwerke mit dem Ziel, spärliche Netzwerke für die Inferenz zu erzeugen. Allerdings beschränkt dies die Größe des größten trainierbaren spärlichen Modells auf die Größe des größten trainierbaren dichten Modells. In diesem Paper stellen wir eine Methode vor, spärliche neuronale Netzwerke mit einer festen Anzahl an Parametern und einer konstanten Rechenkosten während des gesamten Trainings zu trainieren, ohne dabei die Genauigkeit gegenüber bestehenden dicht-zu-spärlich-Trainingsmethoden einzubüßen. Unsere Methode aktualisiert die Topologie des spärlichen Netzwerks während des Trainings mithilfe von Parametergrößen und seltenen Gradientenberechnungen. Wir zeigen, dass dieser Ansatz im Vergleich zu vorherigen Techniken weniger Floating-Point-Operationen (FLOPs) erfordert, um eine bestimmte Genauigkeitsstufe zu erreichen. Wir demonstrieren state-of-the-art-Ergebnisse beim Training spärlicher Netzwerke auf einer Vielzahl von Architekturen und Datensätzen, darunter ResNet-50, MobileNets auf Imagenet-2012 und RNNs auf WikiText-103. Schließlich geben wir einige Einblicke in die Frage, warum die Möglichkeit, die Topologie während der Optimierung dynamisch zu verändern, dazu beitragen kann, lokale Minima zu überwinden, die auftreten, wenn die Topologie statisch bleibt. Der zur Durchführung unserer Arbeit verwendete Code ist unter github.com/google-research/rigl verfügbar.