Gemeinsame Token-Verkürzung und -Kompression zur aggressiveren Komprimierung von Vision-Transformern

Obwohl Vision Transformers (ViTs) in verschiedenen Computer-Vision-Aufgaben kürzlich vielversprechende Ergebnisse erzielt haben, begrenzt ihre hohe Rechenkosten ihre praktische Anwendung. Vorherige Ansätze, die redundante Tokens reduzieren, haben eine gute Balance zwischen Leistung und Rechenkosten gezeigt. Dennoch können Fehler, die durch Pruning-Strategien verursacht werden, zu erheblichen Informationsverlusten führen. Unsere quantitativen Experimente zeigen, dass der Einfluss von reduzierten Tokens auf die Leistung bemerkbar sein sollte. Um dieses Problem anzugehen, schlagen wir ein neues gemeinsames Token Pruning & Squeezing Modul (TPS) vor, um Vision Transformers mit höherer Effizienz zu komprimieren. Erstens verwendet TPS Pruning, um die reservierten und reduzierten Teilmengen zu erhalten. Zweitens drückt TPS die Informationen der reduzierten Tokens durch unidirektionale nächsten-Nachbarn-Zuordnung und similaritätsbasierte Fusionschritte in teilweise reservierte Tokens zusammen. Im Vergleich zu den aktuellen besten Methoden übertrifft unser Ansatz sie bei allen Intensitäten des Token-Prunings. Insbesondere bei einer Reduzierung der Rechenbudgets von DeiT-tiny&small um 35 % verbessert es die Genauigkeit im Vergleich zu Baselines bei der ImageNet-Klassifikation um 1 % bis 6 %. Die vorgeschlagene Methode kann den Durchsatz von DeiT-small über DeiT-tiny hinaus beschleunigen, während ihre Genauigkeit DeiT-tiny um 4,78 % übertreffen kann. Experimente an verschiedenen Transformatoren belegen die Effektivität unserer Methode, während analytische Experimente unsere höhere Robustheit gegenüber Fehlern der Token-Pruning-Politik beweisen. Der Quellcode ist unter https://github.com/megvii-research/TPS-CVPR2023 verfügbar.