HyperAIHyperAI

Command Palette

Search for a command to run...

Selbst-Attentive Schichten zu Faltungsschichten in einem einzigen Pfad kürzen

Haoyu He Jianfei Cai Jing Liu Zizheng Pan Jing Zhang Dacheng Tao Bohan Zhuang

Zusammenfassung

Vision Transformers (ViTs) haben bei verschiedenen Computer-Vision-Aufgaben beeindruckende Leistungen erzielt. Die Modellierung globaler Korrelationen mit Multi-Head-Self-Attention (MSA)-Schichten führt jedoch zu zwei weit verbreiteten Problemen: dem enormen Verbrauch von Rechenressourcen und dem Mangel an intrinsischem induktiven Bias für die Modellierung lokaler visueller Muster. Um beide Probleme zu lösen, entwickeln wir eine einfache, aber effektive Methode namens Single-Path Vision Transformer Pruning (SPViT), um vortrainierte ViTs effizient und automatisch in kompakte Modelle mit hinzugefügtem Lokalitätsbias zu komprimieren.Speziell schlagen wir ein neues Gewichts-Teilungsverfahren zwischen MSA- und Faltungsoperationen vor, das einen einzelnen Pfadraum zur Kodierung aller Kandidatenoperationen bereitstellt. Auf diese Weise wird das Operations-Suchproblem in die Frage umgewandelt, welche Teilmenge der Parameter in jeder MSA-Schicht verwendet werden soll, was den Rechenaufwand und die Optimierungsschwierigkeit erheblich reduziert. Zudem können die Faltungskerne durch vortrainierte MSA-Parameter gut initialisiert werden. Basierend auf diesem einzelnen Pfadraum führen wir lernfähige binäre Schalter ein, um die Operationsauswahl in den MSA-Schichten zu kodieren.Ähnlich verwenden wir lernfähige Schalter, um die detaillierten Erweiterungsverhältnisse der Multilayer-Perceptron (MLP)-Schichten in den Feed-Forward-Network (FFN)-Schichten zu kodieren. Auf diese Weise optimiert unser SPViT die lernfähigen Schalter, um automatisch aus einem großen und einheitlichen Suchraum zu erforschen und flexibel die Pruning-Proportionen von MSA- und FFN-Schichten für jedes individuelle dichte Modell anzupassen. Wir führen umfangreiche Experimente mit zwei repräsentativen ViTs durch und zeigen, dass unser SPViT einen neuen Stand der Technik (SOTA) im Pruning auf ImageNet-1k erreicht.Zum Beispiel kann unser SPViT 52,0 % der FLOPs bei DeiT-B reduzieren und gleichzeitig eine beachtliche Steigerung der Top-1-Akkuranz von 0,6 % erzielen. Der Quellcode ist unter https://github.com/ziplab/SPViT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp