HyperAIHyperAI
vor 8 Tagen

Sind Straight-Through-Ableitungen und Soft-Thresholding alles, was Sie für die sparsame Trainierung benötigen?

Antoine Vanderschueren, Christophe De Vleeschouwer
Sind Straight-Through-Ableitungen und Soft-Thresholding alles, was Sie für die sparsame Trainierung benötigen?
Abstract

Das Setzen der Gewichte auf null während des Trainings eines neuronalen Netzwerks trägt zur Reduktion der rechnerischen Komplexität bei der Inferenz bei. Um die Sparsitätsrate im Netzwerk schrittweise zu erhöhen, ohne während des Trainings zu starke Sprünge in den Gewichtswerten hervorzurufen, kombiniert unsere Arbeit weiche Schwellenwertbildung (soft-thresholding) mit der Straight-Through-Gradientenschätzung zur Aktualisierung der ursprünglichen, d. h. nicht geschwellten, Version der nullgesetzten Gewichte. Unser Verfahren, benannt als ST-3 (straight-through/soft-thresholding/sparse-training), erzielt state-of-the-art-Ergebnisse sowohl hinsichtlich des Kompromisses zwischen Genauigkeit und Sparsität als auch hinsichtlich des Kompromisses zwischen Genauigkeit und FLOPS, wenn die Sparsitätsrate innerhalb eines einzigen Trainingszyklus schrittweise erhöht wird. Insbesondere zeigt ST-3, trotz seiner einfachen Struktur, eine vorteilhafte Leistung gegenüber den jüngsten Ansätzen, die unterschiedliche differenzierbare Formulierungen oder bio-inspirierte Prinzipien der neuroregenerativen Anpassung nutzen. Dies weist darauf hin, dass die entscheidenden Elemente für eine effektive Sparsifizierung vor allem in der Fähigkeit liegen, den Gewichten die Freiheit zu geben, sich kontinuierlich und glatt durch den Zustand null zu entwickeln, während die Sparsitätsrate schrittweise erhöht wird. Quellcode und Gewichte sind unter https://github.com/vanderschuea/stthree verfügbar.

Sind Straight-Through-Ableitungen und Soft-Thresholding alles, was Sie für die sparsame Trainierung benötigen? | Neueste Forschungsarbeiten | HyperAI