HyperAIHyperAI
vor 7 Tagen

Spartan: Differenzierbare Sparsität über regulierte Transportierung

Kai Sheng Tai, Taipeng Tian, Ser-Nam Lim
Spartan: Differenzierbare Sparsität über regulierte Transportierung
Abstract

Wir stellen Spartan vor, eine Methode zum Training sparser neuronaler Netzwerke mit einer vorbestimmten Sparsitätsrate. Spartan basiert auf der Kombination zweier Techniken: (1) weicher Top-k-Masking geringer Magnitudenparameter mittels eines regularisierten optimalen Transportproblems und (2) parameterbasierte Aktualisierungen auf der Grundlage des Dual-Averaging-Ansatzes mit harten Sparsifizierungen im Vorwärtsdurchlauf. Dieses Verfahren realisiert ein Explorations-Exploitations-Trade-off: Zu Beginn des Trainings kann der Lernende verschiedene Sparsitätsmuster erkunden, und während die weiche Top-k-Näherung im Laufe des Trainings schrittweise verschärft wird, verschiebt sich der Fokus zunehmend hin zu der Optimierung der Parameter unter Beibehaltung einer festen Sparsitätsmaske. Spartan ist ausreichend flexibel, um eine Vielzahl von Sparsitätszuweisungsstrategien zu unterstützen, darunter sowohl unstrukturierte als auch blockstrukturierte Sparsität sowie allgemeine kostenempfindliche Sparsitätszuweisungen, die durch lineare Modelle der pro-Parameter-Kosten gesteuert werden. Bei der Klassifikation auf ImageNet-1K erzielt Spartan 95%-sparsische ResNet-50-Modelle und 90%-blocksparsische ViT-B/16-Modelle, wobei der absolute Verlust an Top-1-Accuracy im Vergleich zur vollständig dichten Trainingsweise weniger als 1 % beträgt.

Spartan: Differenzierbare Sparsität über regulierte Transportierung | Neueste Forschungsarbeiten | HyperAI