HyperAIHyperAI

Command Palette

Search for a command to run...

SPViT : Accélérer les Transformers de Vision grâce à l'élagage doux des jetons

Zhenglun Kong∗1, Peiyan Dong∗1, Xiaolong Ma2, Xin Meng3, Wei Niu4, Mengshu Sun1, Xuan Shen1, Geng Yuan1, Bin Ren4, Hao Tang5, Minghai Qin1, and Yanzhi Wang1

Résumé

Récemment, le Vision Transformer (ViT) a continuellement établi de nouveaux jalons dans le domaine de la vision par ordinateur, bien que les coûts élevés en termes de calcul et de mémoire rendent sa propagation dans la production industrielle difficile. L'élagage, une approche traditionnelle de compression de modèle pour l'efficacité matérielle, a été largement appliqué à diverses structures de DNN. Cependant, il reste flou quant à la manière d'effectuer un élagage exclusif sur la structure ViT. En prenant en compte trois points clés : les caractéristiques structurelles, le schéma interne des données des ViTs et le déploiement sur les dispositifs embarqués associés, nous exploitons la parcimonie des jetons d'entrée et proposons un cadre d'élagage doux sensible au calcul, qui peut être mis en place sur des Transformers standards aux structures à la fois aplatie et de type CNN, comme le Pooling-based ViT (PiT). Plus précisément, nous concevons un sélecteur multi-têtes basé sur l'attention dynamique, qui est un module léger pour une sélection adaptative des jetons par instance. Nous introduisons également une technique d'élagage doux, qui intègre les jetons moins informatifs générés par le module sélecteur dans un jeton regroupé qui participera aux calculs ultérieurs plutôt que d'être complètement éliminé. Notre cadre est lié au compromis entre précision et contraintes de calcul spécifiques aux dispositifs embarqués grâce à notre stratégie d'entraînement sensible au calcul proposée. Les résultats expérimentaux montrent que notre cadre réduit considérablement les coûts de calcul des ViTs tout en maintenant des performances comparables en classification d'images. De plus, notre cadre peut garantir que le modèle identifié respecte les spécifications de ressources des appareils mobiles et des FPGA, et même permettre l'exécution en temps réel du DeiT-T sur les plateformes mobiles. Par exemple, notre méthode réduit la latence du DeiT-T à 26 ms (26%\sim41% meilleur que les travaux existants) sur un appareil mobile avec une précision top-1 supérieure de 0,25%\sim4% sur ImageNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp