Adaptive Sparse ViT : Vers une élagage de jetons adaptable apprenable en exploitant pleinement l'auto-attention

Le Vision Transformer (ViT) est apparu comme une nouvelle paradigme en vision par ordinateur, montrant d'excellentes performances mais accompagné d'un coût computationnel élevé. Le filtrage de jetons d'image est l'une des principales approches pour la compression du ViT, en raison du fait que la complexité est quadratique par rapport au nombre de jetons et que de nombreux jetons ne contenant que des régions de fond ne contribuent pas réellement à la prédiction finale. Les travaux existants reposent soit sur des modules supplémentaires pour évaluer l'importance des jetons individuels, soit sur une stratégie de filtrage à taux fixe pour différentes instances d'entrée. Dans ce travail, nous proposons un cadre de filtrage de jetons parcimonieux et adaptatif avec un coût minimal. Plus précisément, nous introduisons tout d'abord un mécanisme peu coûteux d'évaluation de l'attention pondérée par l'importance des têtes d'attention. Ensuite, des paramètres apprenables sont insérés comme seuils pour distinguer les jetons informatifs des moins importants. En comparant les scores d'attention des jetons et ces seuils, nous pouvons éliminer les jetons inutiles hiérarchiquement, accélérant ainsi l'inférence. Les seuils apprenables sont optimisés lors de l'entraînement conscient du budget afin d'équilibrer précision et complexité, effectuant les configurations de filtrage correspondantes pour différentes instances d'entrée. Des expériences approfondies démontrent l'efficacité de notre approche. Notre méthode améliore le débit du DeiT-S de 50% et entraîne seulement une baisse de 0,2% en précision top-1, offrant ainsi un meilleur compromis entre précision et latence que les méthodes précédentes.