HyperAIHyperAI
il y a 2 mois

Fusion multi-critères de jetons avec attention prédictive pour des Transformers visuels efficaces

Lee, Sanghyeok ; Choi, Joonmyung ; Kim, Hyunwoo J.
Fusion multi-critères de jetons avec attention prédictive pour des Transformers visuels efficaces
Résumé

Le Vision Transformer (ViT) est apparu comme une architecture de référence majeure pour la vision par ordinateur. Pour des ViTs plus efficaces, les travaux récents ont cherché à réduire le coût quadratique de la couche d'auto-attention en élaguant ou en fusionnant les jetons redondants. Cependant, ces approches se sont heurtées au compromis vitesse-précision résultant de la perte d'information. Dans cet article, nous soutenons que la fusion des jetons doit prendre en compte diverses relations entre les jetons afin de minimiser cette perte d'information. Nous proposons donc une méthode de Fusion Multicritère des Jetons (MCTF), qui fusionne progressivement les jetons selon plusieurs critères (par exemple, similarité, informativité et taille des jetons fusionnés). De plus, nous utilisons l'attention à un pas en avant, une approche améliorée pour capturer l'informativité des jetons. En formant le modèle équipé de MCTF avec une cohérence de réduction des jetons, nous obtenons le meilleur compromis vitesse-précision dans la classification d'images (ImageNet1K). Les résultats expérimentaux montrent que MCTF surpasse constamment les méthodes de réduction précédentes, qu'elles soient formées ou non. Plus précisément, DeiT-T et DeiT-S équipés de MCTF réduisent les FLOPs d'environ 44 % tout en améliorant les performances (+0,5 % et +0,3 %) par rapport au modèle de base, respectivement. Nous démontrons également l'applicabilité de MCTF à divers Vision Transformers (par exemple, T2T-ViT, LV-ViT), atteignant au moins une accélération de 31 % sans dégradation des performances. Le code est disponible à l'adresse suivante : https://github.com/mlvlab/MCTF.

Fusion multi-critères de jetons avec attention prédictive pour des Transformers visuels efficaces | Articles de recherche récents | HyperAI