HyperAIHyperAI

Command Palette

Search for a command to run...

Fusion multi-critères de jetons avec attention prédictive pour des Transformers visuels efficaces

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

Résumé

Le Vision Transformer (ViT) est apparu comme une architecture de référence majeure pour la vision par ordinateur. Pour des ViTs plus efficaces, les travaux récents ont cherché à réduire le coût quadratique de la couche d'auto-attention en élaguant ou en fusionnant les jetons redondants. Cependant, ces approches se sont heurtées au compromis vitesse-précision résultant de la perte d'information. Dans cet article, nous soutenons que la fusion des jetons doit prendre en compte diverses relations entre les jetons afin de minimiser cette perte d'information. Nous proposons donc une méthode de Fusion Multicritère des Jetons (MCTF), qui fusionne progressivement les jetons selon plusieurs critères (par exemple, similarité, informativité et taille des jetons fusionnés). De plus, nous utilisons l'attention à un pas en avant, une approche améliorée pour capturer l'informativité des jetons. En formant le modèle équipé de MCTF avec une cohérence de réduction des jetons, nous obtenons le meilleur compromis vitesse-précision dans la classification d'images (ImageNet1K). Les résultats expérimentaux montrent que MCTF surpasse constamment les méthodes de réduction précédentes, qu'elles soient formées ou non. Plus précisément, DeiT-T et DeiT-S équipés de MCTF réduisent les FLOPs d'environ 44 % tout en améliorant les performances (+0,5 % et +0,3 %) par rapport au modèle de base, respectivement. Nous démontrons également l'applicabilité de MCTF à divers Vision Transformers (par exemple, T2T-ViT, LV-ViT), atteignant au moins une accélération de 31 % sans dégradation des performances. Le code est disponible à l'adresse suivante : https://github.com/mlvlab/MCTF.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp