il y a 2 mois

Evo-ViT : Évolution lente-rapide des jetons pour un Transformers visuel dynamique

Xu, Yifan ; Zhang, Zhijie ; Zhang, Mengdan ; Sheng, Kekai ; Li, Ke ; Dong, Weiming ; Zhang, Liqing ; Xu, Changsheng ; Sun, Xing

Voir les détails de l'article

Evo-ViT : Évolution lente-rapide des jetons pour un Transformers visuel dynamique

Résumé

Les transformateurs visuels (ViTs) ont récemment connu une popularité explosive, mais le coût computationnel élevé reste un problème sévère. Étant donné que la complexité de calcul des ViTs est quadratique par rapport à la longueur de la séquence d'entrée, une approche courante pour réduire les calculs consiste à diminuer le nombre de jetons. Les conceptions existantes incluent la compression spatiale structurée qui utilise une pyramide progressive de réduction pour diminuer les calculs des grandes cartes de caractéristiques, et l'élagage non structuré des jetons qui élimine dynamiquement les jetons redondants.Cependant, les limites de l'élagage des jetons existants se manifestent sous deux aspects : 1) la structure spatiale incomplète causée par l'élagage n'est pas compatible avec la compression spatiale structurée largement utilisée dans les transformateurs modernes profonds et étroits ; 2) il nécessite généralement une procédure de pré-entraînement chronophage. Pour surmonter ces limitations et élargir les scénarios d'application de l'élagage des jetons, nous présentons Evo-ViT, une approche d'évolution lente-rapide auto-motivée des jetons pour les transformateurs visuels.Plus précisément, nous effectuons une sélection non structurée des jetons par instance en tirant parti de l'attention globale aux classes inhérente aux transformateurs visuels. Ensuite, nous proposons de mettre à jour les jetons informatifs et non informatifs sélectionnés via des chemins de calcul différents, appelés mise à jour lente-rapide. Comme le mécanisme de mise à jour lente-rapide préserve la structure spatiale et le flux d'information, Evo-ViT peut accélérer les transformateurs basiques, qu'ils soient plats ou profonds et étroits, dès le début du processus d'entraînement. Les résultats expérimentaux montrent que notre méthode réduit considérablement le coût computationnel des transformateurs visuels tout en maintenant une performance comparable pour la classification d'images.