PPT: Token-Pruning und -Pooling für effiziente Visionstransformer

Vision Transformers (ViTs) sind als leistungsstarke Modelle im Bereich der Computer Vision hervorgetreten und erzielen überlegenste Ergebnisse bei verschiedenen visuellen Aufgaben. Dennoch stellt die hohe rechnerische Komplexität eine erhebliche Barriere für ihre praktische Anwendung in realen Szenarien dar. Angeregt durch die Erkenntnis, dass nicht alle Tokens gleichermaßen zur endgültigen Vorhersage beitragen und weniger Tokens geringere rechnerische Kosten verursachen, ist das Reduzieren von redundanten Tokens zu einem vorherrschenden Paradigma geworden, um Vision Transformers zu beschleunigen. Wir argumentieren jedoch, dass es nicht optimal ist, entweder nur die inattentive Redundanz durch Token-Pruning oder nur die duplikative Redundanz durch Token-Merging zu reduzieren. Zu diesem Zweck schlagen wir in dieser Arbeit ein neues Beschleunigungsframework vor, nämlich Token Pruning & Pooling Transformers (PPT), um diese beiden Arten von Redundanz auf unterschiedlichen Schichten adaptive zu bewältigen. Durch heuristische Integration sowohl von Token-Pruning- als auch von Token-Pooling-Techniken in ViTs ohne zusätzliche trainierbare Parameter reduziert PPT effektiv die Modellkomplexität, während es dessen Vorhersagegenauigkeit beibehält. Zum Beispiel reduziert PPT bei DeiT-S über 37 % der FLOPs und verbessert den Durchsatz um über 45 %, ohne dass es zu einer Genauigkeitsverlust auf dem ImageNet-Datensatz kommt. Der Code ist unter https://github.com/xjwu1024/PPT und https://github.com/mindspore-lab/models/ verfügbar.