HyperAIHyperAI

Command Palette

Search for a command to run...

Poursuite de la parcimonie dans les Vision Transformers : une exploration de bout en bout

Tianlong Chen Yu Cheng Zhe Gan Lu Yuan Lei Zhang Zhangyang Wang

Résumé

Les transformateurs visuels (ViTs) ont récemment connu une popularité explosive, mais leurs tailles de modèles considérables et les coûts d'entraînement élevés restent dissuasifs. L'élagage post-entraînement conventionnel entraîne souvent des budgets d'entraînement plus importants. En revanche, cet article vise à réduire à la fois la surcharge mémoire d'entraînement et la complexité d'inférence, sans compromettre la précision atteignable. Nous menons pour la première fois une exploration complète en adoptant une approche unifiée consistant à intégrer la parcimonie dans les ViTs « de bout en bout ». Plus précisément, au lieu d'entraîner des ViTs complets, nous extrayons et entraînons dynamiquement des sous-réseaux parcimonieux tout en maintenant un budget de paramètres fixe et limité. Notre méthode optimise conjointement les paramètres du modèle et explore la connectivité tout au long de l'entraînement, aboutissant à un réseau parcimonieux unique comme sortie finale. Cette approche est étendue sans heurt de la parcimonie non structurée à la parcimonie structurée, cette dernière étant réalisée en considérant le guidage de l'élagage et de la croissance des têtes d'auto-attention à l'intérieur des ViTs. Nous explorons également conjointement la parcimonie des données et celle de l'architecture pour gagner en efficacité supplémentaire en intégrant un sélecteur de jetons apprenable qui détermine adaptativement les patches actuellement les plus essentiels. Des résultats exhaustifs sur ImageNet avec diverses architectures ViT valident l'efficacité de nos propositions, qui permettent une réduction significative du coût computationnel tout en préservant presque entièrement la généralisation. Peut-être ce qui est le plus surprenant, nous constatons que l'entraînement parcimonieux (co-)proposé peut parfois améliorer la précision des ViTs plutôt que de la compromettre, rendant ainsi la parcimonie un repas alléchant « gratuit ». Par exemple, notre DeiT-Small élagué à (5%, 50%) de parcimonie pour (données, architecture) améliore la précision top-1 de 0,28 % tout en bénéficiant d'une réduction de 49,32 % des FLOPs et de 4,40 % du temps d'exécution. Nos codes sont disponibles sur https://github.com/VITA-Group/SViTE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp