HyperAIHyperAI

Command Palette

Search for a command to run...

Evo-ViT : Évolution lente-rapide des jetons pour un Transformers visuel dynamique

Yifan Xu extsuperscript1,3,4* Zhijie Zhang extsuperscript2,3* Mengdan Zhang extsuperscript3 Kekai Sheng extsuperscript3 Ke Li extsuperscript3 Weiming Dong extsuperscript1,4† Liqing Zhang extsuperscript2 Changsheng Xu extsuperscript1,4 Xing Sun extsuperscript3†

Résumé

Les transformateurs visuels (ViTs) ont récemment connu une popularité explosive, mais le coût computationnel élevé reste un problème sévère. Étant donné que la complexité de calcul des ViTs est quadratique par rapport à la longueur de la séquence d'entrée, une approche courante pour réduire les calculs consiste à diminuer le nombre de jetons. Les conceptions existantes incluent la compression spatiale structurée qui utilise une pyramide progressive de réduction pour diminuer les calculs des grandes cartes de caractéristiques, et l'élagage non structuré des jetons qui élimine dynamiquement les jetons redondants.Cependant, les limites de l'élagage des jetons existants se manifestent sous deux aspects : 1) la structure spatiale incomplète causée par l'élagage n'est pas compatible avec la compression spatiale structurée largement utilisée dans les transformateurs modernes profonds et étroits ; 2) il nécessite généralement une procédure de pré-entraînement chronophage. Pour surmonter ces limitations et élargir les scénarios d'application de l'élagage des jetons, nous présentons Evo-ViT, une approche d'évolution lente-rapide auto-motivée des jetons pour les transformateurs visuels.Plus précisément, nous effectuons une sélection non structurée des jetons par instance en tirant parti de l'attention globale aux classes inhérente aux transformateurs visuels. Ensuite, nous proposons de mettre à jour les jetons informatifs et non informatifs sélectionnés via des chemins de calcul différents, appelés mise à jour lente-rapide. Comme le mécanisme de mise à jour lente-rapide préserve la structure spatiale et le flux d'information, Evo-ViT peut accélérer les transformateurs basiques, qu'ils soient plats ou profonds et étroits, dès le début du processus d'entraînement. Les résultats expérimentaux montrent que notre méthode réduit considérablement le coût computationnel des transformateurs visuels tout en maintenant une performance comparable pour la classification d'images.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Evo-ViT : Évolution lente-rapide des jetons pour un Transformers visuel dynamique | Articles | HyperAI