il y a 2 mois

Poursuite de la parcimonie dans les Vision Transformers : une exploration de bout en bout

Chen, Tianlong ; Cheng, Yu ; Gan, Zhe ; Yuan, Lu ; Zhang, Lei ; Wang, Zhangyang

Résumé

Les transformateurs visuels (ViTs) ont récemment connu une popularité explosive, mais leurs tailles de modèles considérables et les coûts d'entraînement élevés restent dissuasifs. L'élagage post-entraînement conventionnel entraîne souvent des budgets d'entraînement plus importants. En revanche, cet article vise à réduire à la fois la surcharge mémoire d'entraînement et la complexité d'inférence, sans compromettre la précision atteignable. Nous menons pour la première fois une exploration complète en adoptant une approche unifiée consistant à intégrer la parcimonie dans les ViTs « de bout en bout ». Plus précisément, au lieu d'entraîner des ViTs complets, nous extrayons et entraînons dynamiquement des sous-réseaux parcimonieux tout en maintenant un budget de paramètres fixe et limité. Notre méthode optimise conjointement les paramètres du modèle et explore la connectivité tout au long de l'entraînement, aboutissant à un réseau parcimonieux unique comme sortie finale. Cette approche est étendue sans heurt de la parcimonie non structurée à la parcimonie structurée, cette dernière étant réalisée en considérant le guidage de l'élagage et de la croissance des têtes d'auto-attention à l'intérieur des ViTs. Nous explorons également conjointement la parcimonie des données et celle de l'architecture pour gagner en efficacité supplémentaire en intégrant un sélecteur de jetons apprenable qui détermine adaptativement les patches actuellement les plus essentiels. Des résultats exhaustifs sur ImageNet avec diverses architectures ViT valident l'efficacité de nos propositions, qui permettent une réduction significative du coût computationnel tout en préservant presque entièrement la généralisation. Peut-être ce qui est le plus surprenant, nous constatons que l'entraînement parcimonieux (co-)proposé peut parfois améliorer la précision des ViTs plutôt que de la compromettre, rendant ainsi la parcimonie un repas alléchant « gratuit ». Par exemple, notre DeiT-Small élagué à (5%, 50%) de parcimonie pour (données, architecture) améliore la précision top-1 de 0,28 % tout en bénéficiant d'une réduction de 49,32 % des FLOPs et de 4,40 % du temps d'exécution. Nos codes sont disponibles sur https://github.com/VITA-Group/SViTE.