Selbst-Attentive Schichten zu Faltungsschichten in einem einzigen Pfad kürzen

Vision Transformers (ViTs) haben bei verschiedenen Computer-Vision-Aufgaben beeindruckende Leistungen erzielt. Die Modellierung globaler Korrelationen mit Multi-Head-Self-Attention (MSA)-Schichten führt jedoch zu zwei weit verbreiteten Problemen: dem enormen Verbrauch von Rechenressourcen und dem Mangel an intrinsischem induktiven Bias für die Modellierung lokaler visueller Muster. Um beide Probleme zu lösen, entwickeln wir eine einfache, aber effektive Methode namens Single-Path Vision Transformer Pruning (SPViT), um vortrainierte ViTs effizient und automatisch in kompakte Modelle mit hinzugefügtem Lokalitätsbias zu komprimieren.Speziell schlagen wir ein neues Gewichts-Teilungsverfahren zwischen MSA- und Faltungsoperationen vor, das einen einzelnen Pfadraum zur Kodierung aller Kandidatenoperationen bereitstellt. Auf diese Weise wird das Operations-Suchproblem in die Frage umgewandelt, welche Teilmenge der Parameter in jeder MSA-Schicht verwendet werden soll, was den Rechenaufwand und die Optimierungsschwierigkeit erheblich reduziert. Zudem können die Faltungskerne durch vortrainierte MSA-Parameter gut initialisiert werden. Basierend auf diesem einzelnen Pfadraum führen wir lernfähige binäre Schalter ein, um die Operationsauswahl in den MSA-Schichten zu kodieren.Ähnlich verwenden wir lernfähige Schalter, um die detaillierten Erweiterungsverhältnisse der Multilayer-Perceptron (MLP)-Schichten in den Feed-Forward-Network (FFN)-Schichten zu kodieren. Auf diese Weise optimiert unser SPViT die lernfähigen Schalter, um automatisch aus einem großen und einheitlichen Suchraum zu erforschen und flexibel die Pruning-Proportionen von MSA- und FFN-Schichten für jedes individuelle dichte Modell anzupassen. Wir führen umfangreiche Experimente mit zwei repräsentativen ViTs durch und zeigen, dass unser SPViT einen neuen Stand der Technik (SOTA) im Pruning auf ImageNet-1k erreicht.Zum Beispiel kann unser SPViT 52,0 % der FLOPs bei DeiT-B reduzieren und gleichzeitig eine beachtliche Steigerung der Top-1-Akkuranz von 0,6 % erzielen. Der Quellcode ist unter https://github.com/ziplab/SPViT verfügbar.