HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Prize Lottery Ticket Hypothesis: Die Suche nach genauen binären neuronalen Netzwerken durch Pruning eines zufällig gewichteten Netzwerks

James Diffenderfer Bhavya Kailkhura

Zusammenfassung

Kürzlich zeigten Frankle & Carbin (2019), dass dichte Netzwerke mit zufällig initialisierten Gewichten Unterstrukturen enthalten, die, sobald sie gefunden wurden, trainiert werden können, um eine Testgenauigkeit zu erreichen, die mit der eines vollständig trainierten dichten Netzwerks vergleichbar ist. Die Suche nach solchen hochperformanten, trainierbaren Unterstrukturen ist jedoch kostspielig und erfordert einen iterativen Prozess aus Training und Gewichtspruning. In diesem Paper schlagen wir (und beweisen) eine stärkere Version der Multi-Prize Lottery Ticket Hypothese vor:Ein ausreichend überparametrisiertes neuronales Netzwerk mit zufälligen Gewichten enthält mehrere Unterstrukturen („gewinnende Lose“), die (a) eine vergleichbare Genauigkeit wie ein dichtes Zielnetzwerk mit gelernten Gewichten erreichen (Preis 1), (b) keine weitere Anpassung der Gewichte benötigen, um Preis 1 zu erzielen (Preis 2), und (c) robust gegenüber extremen Formen der Quantisierung sind (z. B. binäre Gewichte und/oder Aktivierungen) (Preis 3).Dies eröffnet eine neue Paradigmen für die Entwicklung kompakter, dennoch hochgenauer binärer neuronaler Netzwerke, die lediglich durch Pruning und Quantisierung von vollpräzisen, zufällig gewichteten Netzwerken erzeugt werden können. Wir stellen zudem einen Algorithmus zur Suche nach Multi-Prize-Tickets (MPTs) vor und testen ihn anhand einer Reihe von Experimenten auf den Datensätzen CIFAR-10 und ImageNet. Empirische Ergebnisse zeigen, dass sich mit zunehmender Tiefe und Breite der Modelle Multi-Prize-Tickets zunehmend an die Leistung ihrer deutlich größeren, vollpräzisen, gewichtstrainierten Vorbilder anpassen – und in einigen Fällen sogar diese übertreffen. Ohne jemals die Gewichtswerte zu aktualisieren, erreichen unsere MPTs-1/32 neue SOTA-Ergebnisse für binäre Gewichtsnetzwerke: 94,8 % Top-1-Accuracy auf CIFAR-10 und 74,03 % auf ImageNet – und übertreffen dabei ihre vollpräzisen Gegenstücke jeweils um 1,78 % und 0,76 %. Zudem erzielt unser MPT-1/1 eine SOTA-Top-1-Accuracy (91,9 %) für binäre neuronale Netzwerke auf CIFAR-10. Der Quellcode und vortrainierte Modelle sind unter folgender Adresse verfügbar: https://github.com/chrundle/biprop.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp