Patch Slimming für effiziente Visionstransformer

Dieses Papier untersucht das Effizienzproblem von visuellen Transformers durch die Analyse und Reduzierung redundanter Berechnungen in gegebenen Netzwerken. Die neueste Transformer-Architektur hat ihre Wirksamkeit bei der Erreichung ausgezeichneter Ergebnisse in einer Reihe von Computer-Vision-Aufgaben bewiesen. Allerdings stellt die hohe Rechenkosten von visuellen Transformers, ähnlich wie bei Faltungsneuralnetzen (Convolutional Neural Networks), weiterhin ein schwerwiegendes Problem dar. Unter Berücksichtigung des Tatsächums, dass der Aufmerksamkeitsmechanismus verschiedene Patchs schichtweise aggregiert, präsentieren wir einen neuen Ansatz zur Patch-Dünnung, der nutzlose Patchs in einem top-down Paradigma entfernt. Wir identifizieren zunächst die effektiven Patchs in der letzten Schicht und nutzen diese, um den Patch-Auswahlprozess der vorherigen Schichten zu leiten. Für jede Schicht wird der Einfluss eines Patchs auf das endgültige Ausgabe-Feature approximiert, wobei Patchs mit geringerem Einfluss entfernt werden. Experimentelle Ergebnisse auf Benchmark-Datensätzen zeigen, dass das vorgeschlagene Verfahren die Rechenkosten von visuellen Transformers erheblich reduzieren kann, ohne ihre Leistungsfähigkeit zu beeinträchtigen. Zum Beispiel können über 45 % der FLOPs des ViT-Ti-Modells reduziert werden, wobei lediglich eine Abnahme von 0,2 % im Top-1-Genauigkeitswert auf dem ImageNet-Datensatz zu verzeichnen ist.