vor 16 Tagen

Multi-Prize Lottery Ticket Hypothesis: Die Suche nach genauen binären neuronalen Netzwerken durch Pruning eines zufällig gewichteten Netzwerks

James Diffenderfer, Bhavya Kailkhura

Abstract

Kürzlich zeigten Frankle & Carbin (2019), dass dichte Netzwerke mit zufällig initialisierten Gewichten Unterstrukturen enthalten, die, sobald sie gefunden wurden, trainiert werden können, um eine Testgenauigkeit zu erreichen, die mit der eines vollständig trainierten dichten Netzwerks vergleichbar ist. Die Suche nach solchen hochperformanten, trainierbaren Unterstrukturen ist jedoch kostspielig und erfordert einen iterativen Prozess aus Training und Gewichtspruning. In diesem Paper schlagen wir (und beweisen) eine stärkere Version der Multi-Prize Lottery Ticket Hypothese vor:Ein ausreichend überparametrisiertes neuronales Netzwerk mit zufälligen Gewichten enthält mehrere Unterstrukturen („gewinnende Lose“), die (a) eine vergleichbare Genauigkeit wie ein dichtes Zielnetzwerk mit gelernten Gewichten erreichen (Preis 1), (b) keine weitere Anpassung der Gewichte benötigen, um Preis 1 zu erzielen (Preis 2), und (c) robust gegenüber extremen Formen der Quantisierung sind (z. B. binäre Gewichte und/oder Aktivierungen) (Preis 3).Dies eröffnet eine neue Paradigmen für die Entwicklung kompakter, dennoch hochgenauer binärer neuronaler Netzwerke, die lediglich durch Pruning und Quantisierung von vollpräzisen, zufällig gewichteten Netzwerken erzeugt werden können. Wir stellen zudem einen Algorithmus zur Suche nach Multi-Prize-Tickets (MPTs) vor und testen ihn anhand einer Reihe von Experimenten auf den Datensätzen CIFAR-10 und ImageNet. Empirische Ergebnisse zeigen, dass sich mit zunehmender Tiefe und Breite der Modelle Multi-Prize-Tickets zunehmend an die Leistung ihrer deutlich größeren, vollpräzisen, gewichtstrainierten Vorbilder anpassen – und in einigen Fällen sogar diese übertreffen. Ohne jemals die Gewichtswerte zu aktualisieren, erreichen unsere MPTs-1/32 neue SOTA-Ergebnisse für binäre Gewichtsnetzwerke: 94,8 % Top-1-Accuracy auf CIFAR-10 und 74,03 % auf ImageNet – und übertreffen dabei ihre vollpräzisen Gegenstücke jeweils um 1,78 % und 0,76 %. Zudem erzielt unser MPT-1/1 eine SOTA-Top-1-Accuracy (91,9 %) für binäre neuronale Netzwerke auf CIFAR-10. Der Quellcode und vortrainierte Modelle sind unter folgender Adresse verfügbar: https://github.com/chrundle/biprop.