PPT : Élagage et regroupement de jetons pour des Transformers visuels efficaces

Les Vision Transformers (ViTs) sont apparus comme des modèles puissants dans le domaine de la vision par ordinateur, offrant des performances supérieures dans diverses tâches de vision. Cependant, leur complexité computationnelle élevée constitue une barrière importante à leurs applications pratiques dans des scénarios réels. Motivés par le fait que tous les jetons ne contribuent pas de manière égale aux prédictions finales et que moins de jetons entraînent un coût computationnel moindre, la réduction des jetons redondants est devenue une approche prédominante pour accélérer les Vision Transformers. Néanmoins, nous soutenons qu'il n'est pas optimal de réduire uniquement la redondance inattentive par l'élagage des jetons ou uniquement la redondance duplicative par le regroupement des jetons. À cet égard, dans cet article, nous proposons un nouveau cadre d'accélération, appelé Pruning & Pooling Transformers (PPT), pour traiter ces deux types de redondance de manière adaptative dans différentes couches. En intégrant heuristiquement les techniques d'élagage et de regroupement des jetons dans les ViTs sans ajouter de paramètres entraînables supplémentaires, le PPT réduit efficacement la complexité du modèle tout en maintenant sa précision prédictive. Par exemple, le PPT réduit plus de 37% des FLOPs et améliore le débit d'au moins 45% pour DeiT-S sans aucune perte de précision sur l'ensemble de données ImageNet. Le code est disponible à l'adresse suivante : https://github.com/xjwu1024/PPT et https://github.com/mindspore-lab/models/