il y a 8 mois

Résumé

La conception de transformateurs de vision (ViTs) précis et efficaces constitue une tâche à la fois cruciale et complexe. La recherche d’architecture neuronale (NAS) à base de supernet, permettant une optimisation rapide des architectures, a permis d’atteindre des résultats de pointe (SOTA) sur les réseaux de neurones convolutifs (CNN). Toutefois, l’application directe de cette approche de NAS basée sur le supernet à l’optimisation des ViTs conduit à des performances médiocres — même inférieures à celles obtenues par l’entraînement de ViTs individuels. Dans ce travail, nous observons que cette faible performance est due à un conflit de gradients : les gradients des différentes sous-architectures entrent en conflit de manière plus sévère avec ceux du supernet dans les ViTs qu’ils ne le font dans les CNN, ce qui entraîne une saturation précoce de l’entraînement et une convergence défaillante. Pour atténuer ce problème, nous proposons une série de techniques, notamment un algorithme de projection de gradients, une conception à échelle de couche interchangeable, ainsi qu’un protocole simplifié d’augmentation de données et de régularisation. Ces techniques améliorent significativement la convergence et les performances de toutes les sous-architectures. La famille de modèles hybrides ViT découverte, baptisée NASViT, atteint une précision top-1 comprise entre 78,2 % et 81,8 % sur ImageNet, pour des charges de calcul allant de 200M à 800M FLOPs, surpassant ainsi tous les modèles CNN et ViT antérieurs, y compris AlphaNet et LeViT. Lorsqu’ils sont transférés à des tâches de segmentation sémantique, les NASViT surpassent également les modèles précédents sur les jeux de données Cityscapes et ADE20K, atteignant respectivement 73,2 % et 37,9 % de mIoU avec seulement 5G FLOPs.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Vision Par Ordinateur

Segmentation Sémantique

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Vision Par Ordinateur

Segmentation Sémantique

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

NASViT : Recherche d'architecture neuronale pour des Transformers visuels efficaces avec une formation de supernet consciente des conflits de gradients

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

NASViT : Recherche d'architecture neuronale pour des Transformers visuels efficaces avec une formation de supernet consciente des conflits de gradients

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

NASViT : Recherche d'architecture neuronale pour des Transformers visuels efficaces avec une formation de supernet consciente des conflits de gradients

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters