HyperAIHyperAI
il y a 2 mois

Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers Élagage et compression conjoints des tokens pour une compression plus agressive des transformateurs visuels

Wei, Siyuan ; Ye, Tianzhu ; Zhang, Shen ; Tang, Yao ; Liang, Jiajun
Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers
Élagage et compression conjoints des tokens pour une compression plus agressive des transformateurs visuels
Résumé

Bien que les transformateurs visuels (ViTs) aient montré des résultats prometteurs dans diverses tâches de vision par ordinateur récemment, leur coût computationnel élevé limite leurs applications pratiques. Les approches précédentes qui éliminent les jetons redondants ont démontré un bon compromis entre performance et coûts computationnels. Néanmoins, les erreurs causées par les stratégies d'élagage peuvent entraîner une perte d'information significative. Nos expériences quantitatives révèlent que l'impact des jetons élagués sur la performance devrait être notable. Pour résoudre ce problème, nous proposons un nouveau module de joint Token Pruning & Squeezing (TPS) pour compresser les transformateurs visuels avec une efficacité supérieure. Premièrement, le TPS adopte l'élagage pour obtenir les sous-ensembles conservés et élagués. Deuxièmement, le TPS compresse l'information des jetons élagués dans une partie des jetons conservés grâce aux étapes de correspondance unidirectionnelle du voisin le plus proche et de fusion basée sur la similarité. Comparativement aux méthodes de pointe, notre approche les dépasse sous toutes les intensités d'élagage des jetons. En particulier, en réduisant les budgets computationnels de DeiT-tiny&small à 35%, elle améliore la précision de 1% à 6% par rapport aux modèles de base pour la classification ImageNet. La méthode proposée peut accélérer le débit de DeiT-small au-delà de celui de DeiT-tiny, tout en surpassant DeiT-tiny en précision de 4,78%. Des expériences sur divers transformateurs démontrent l'efficacité de notre méthode, tandis que des expériences d'analyse prouvent notre meilleure robustesse face aux erreurs de la politique d'élagage des jetons. Le code est disponible à l'adresse suivante : https://github.com/megvii-research/TPS-CVPR2023.

Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers Élagage et compression conjoints des tokens pour une compression plus agressive des transformateurs visuels | Articles de recherche récents | HyperAI