HyperAIHyperAI
il y a 4 mois

AdaViT : Jetons Adaptatifs pour un Transformers Visuel Efficace

Yin, Hongxu ; Vahdat, Arash ; Alvarez, Jose ; Mallya, Arun ; Kautz, Jan ; Molchanov, Pavlo
AdaViT : Jetons Adaptatifs pour un Transformers Visuel Efficace
Résumé

Nous présentons A-ViT, une méthode qui ajuste de manière adaptative le coût d'inférence des transformateurs visuels (ViT) pour des images de complexités différentes. A-ViT réalise cela en réduisant automatiquement le nombre de jetons dans les transformateurs visuels qui sont traités par le réseau au fur et à mesure que l'inférence progresse. Nous reformulons le temps de calcul adaptatif (Adaptive Computation Time, ACT) pour cette tâche, en étendant l'arrêt pour éliminer les jetons spatiaux redondants. Les propriétés architecturales attractives des transformateurs visuels permettent à notre mécanisme de réduction de jetons adaptatifs d'accélérer l'inférence sans modifier l'architecture du réseau ou le matériel d'inférence. Nous démontrons que A-ViT n'a pas besoin de paramètres supplémentaires ou de sous-réseaux pour l'arrêt, car nous basons l'apprentissage de l'arrêt adaptatif sur les paramètres originaux du réseau. Nous introduisons également une régularisation par priori distributionnel qui stabilise la formation par rapport aux approches ACT précédentes. Sur la tâche de classification d'images (ImageNet1K), nous montrons que notre méthode proposée A-ViT offre une efficacité élevée dans le filtrage des caractéristiques spatiales informatives et la réduction du calcul global. La méthode proposée améliore le débit de DeiT-Tiny de 62 % et celui de DeiT-Small de 38 % avec seulement une baisse de précision de 0,3 %, surpassant largement les travaux antérieurs. Page du projet : https://a-vit.github.io/