il y a 2 mois

SPViT : Accélérer les Transformers de Vision grâce à l'élagage doux des jetons

Kong, Zhenglun ; Dong, Peiyan ; Ma, Xiaolong ; Meng, Xin ; Sun, Mengshu ; Niu, Wei ; Shen, Xuan ; Yuan, Geng ; Ren, Bin ; Qin, Minghai ; Tang, Hao ; Wang, Yanzhi

Voir les détails de l'article

SPViT : Accélérer les Transformers de Vision grâce à l'élagage doux des jetons

Résumé

Récemment, le Vision Transformer (ViT) a continuellement établi de nouveaux jalons dans le domaine de la vision par ordinateur, bien que les coûts élevés en termes de calcul et de mémoire rendent sa propagation dans la production industrielle difficile. L'élagage, une approche traditionnelle de compression de modèle pour l'efficacité matérielle, a été largement appliqué à diverses structures de DNN. Cependant, il reste flou quant à la manière d'effectuer un élagage exclusif sur la structure ViT. En prenant en compte trois points clés : les caractéristiques structurelles, le schéma interne des données des ViTs et le déploiement sur les dispositifs embarqués associés, nous exploitons la parcimonie des jetons d'entrée et proposons un cadre d'élagage doux sensible au calcul, qui peut être mis en place sur des Transformers standards aux structures à la fois aplatie et de type CNN, comme le Pooling-based ViT (PiT). Plus précisément, nous concevons un sélecteur multi-têtes basé sur l'attention dynamique, qui est un module léger pour une sélection adaptative des jetons par instance. Nous introduisons également une technique d'élagage doux, qui intègre les jetons moins informatifs générés par le module sélecteur dans un jeton regroupé qui participera aux calculs ultérieurs plutôt que d'être complètement éliminé. Notre cadre est lié au compromis entre précision et contraintes de calcul spécifiques aux dispositifs embarqués grâce à notre stratégie d'entraînement sensible au calcul proposée. Les résultats expérimentaux montrent que notre cadre réduit considérablement les coûts de calcul des ViTs tout en maintenant des performances comparables en classification d'images. De plus, notre cadre peut garantir que le modèle identifié respecte les spécifications de ressources des appareils mobiles et des FPGA, et même permettre l'exécution en temps réel du DeiT-T sur les plateformes mobiles. Par exemple, notre méthode réduit la latence du DeiT-T à 26 ms (26%$\sim$41% meilleur que les travaux existants) sur un appareil mobile avec une précision top-1 supérieure de 0,25%$\sim$4% sur ImageNet.