HyperAIHyperAI
il y a 2 mois

Au-delà des jetons attentifs : Intégration de l'importance et de la diversité des jetons pour des transformateurs visuels efficaces

Long, Sifan ; Zhao, Zhen ; Pi, Jimin ; Wang, Shengsheng ; Wang, Jingdong
Au-delà des jetons attentifs : Intégration de l'importance et de la diversité des jetons pour des transformateurs visuels efficaces
Résumé

Les transformateurs visuels ont réalisé des améliorations significatives dans diverses tâches de vision, mais leurs interactions quadratiques entre les jetons (tokens) réduisent considérablement l'efficacité computationnelle. De nombreuses méthodes de pruning ont été proposées récemment pour éliminer les jetons redondants et améliorer l'efficacité des transformateurs visuels. Cependant, les études existantes se concentrent principalement sur l'importance des jetons pour préserver les jetons attentifs locaux, tout en ignorant complètement la diversité globale des jetons.Dans cet article, nous soulignons l'importance cruciale de la sémantique globale diversifiée et proposons une méthode efficace de découplage et de fusion de jetons qui peut prendre en compte conjointement l'importance et la diversité des jetons pour le pruning. En nous basant sur l'attention du jeton de classe, nous découplons les jetons attentifs et non attentifs. Outre la préservation des jetons locaux les plus discriminants, nous fusionnons les jetons non attentifs similaires et associons les jetons attentifs homogènes afin de maximiser la diversité des jetons.Malgré sa simplicité, notre méthode obtient un compromis prometteur entre la complexité du modèle et la précision de classification. Sur DeiT-S, notre méthode réduit les FLOPs (floating-point operations per second) de 35 % avec seulement une baisse de précision de 0,2 %. De manière notable, grâce au maintien de la diversité des jetons, notre méthode peut même améliorer la précision de DeiT-T de 0,1 % après avoir réduit ses FLOPs de 40 %.

Au-delà des jetons attentifs : Intégration de l'importance et de la diversité des jetons pour des transformateurs visuels efficaces | Articles de recherche récents | HyperAI