Réduction des auto-attention en couches de convolution dans un seul chemin

Les Vision Transformers (ViTs) ont obtenu des performances impressionnantes dans diverses tâches de vision par ordinateur. Cependant, la modélisation des corrélations globales à l'aide de couches d'auto-attention multi-têtes (MSA) conduit à deux problèmes largement reconnus : une consommation massive de ressources informatiques et un manque de biais inductif intrinsèque pour la modélisation de motifs visuels locaux. Pour résoudre ces deux problèmes, nous avons conçu une méthode simple mais efficace appelée prunage de Vision Transformer à chemin unique (SPViT), permettant de compresser efficacement et automatiquement les ViTs pré-entraînés en modèles compacts avec une localité appropriée ajoutée.Plus précisément, nous proposons d'abord un nouveau schéma de partage des poids entre les opérations MSA et convolutionnelles, offrant un espace à chemin unique pour encoder toutes les opérations candidates. Ainsi, nous transformons le problème de recherche d'opérations en celui de trouver quel sous-ensemble de paramètres utiliser dans chaque couche MSA, ce qui réduit considérablement le coût computationnel et la difficulté d'optimisation, tout en permettant une initialisation efficace des noyaux convolutifs à partir des paramètres MSA pré-entraînés. En s'appuyant sur cet espace à chemin unique, nous introduisons des portes binaires apprenables pour encoder les choix d'opérations dans les couches MSA.De manière similaire, nous utilisons également des portes apprenables pour encoder les rapports d'expansion détaillés du réseau multicouche perçptron (MLP) dans les couches FFN. De cette façon, notre SPViT optimise les portes apprenables afin d'explorer automatiquement un vaste espace de recherche unifié et d'ajuster flexiblement les proportions de prunage MSA-FFN pour chaque modèle dense individuel. Nous menons des expériences approfondies sur deux ViTs représentatifs, montrant que notre SPViT atteint un nouvel état de l'art (SOTA) en matière de prunage sur ImageNet-1k. Par exemple, notre SPViT peut réduire de 52,0 % les FLOPs pour DeiT-B tout en obtenant simultanément une amélioration impressionnante de 0,6 % en précision top-1. Le code source est disponible à l'adresse suivante : https://github.com/ziplab/SPViT.