HyperAIHyperAI

Command Palette

Search for a command to run...

MobileViTv3 : Vision Transformer adapté aux dispositifs mobiles avec une fusion simple et efficace des caractéristiques locales, globales et d'entrée

Shakti N. Wadekar Abhishek Chaurasia

Résumé

MobileViT (MobileViTv1) combine les réseaux de neurones convolutifs (CNNs) et les vision transformers (ViTs) afin de concevoir des modèles légers adaptés aux tâches de vision mobile. Bien que le bloc principal MobileViTv1 permette d'obtenir des résultats compétitifs parmi les meilleurs états de l'art, le bloc de fusion intégré dans ce dernier pose des défis en matière d'échelle et impose une tâche d'apprentissage complexe. Nous proposons des modifications simples mais efficaces au bloc de fusion, menant à la conception du bloc MobileViTv3, qui résout les problèmes d'échelle et simplifie significativement la tâche d'apprentissage. Les modèles MobileViTv3-XXS, XS et S, construits à partir de notre nouveau bloc MobileViTv3, surpassent les versions correspondantes de MobileViTv1 sur les jeux de données ImageNet-1k, ADE20K, COCO et PascalVOC2012. Sur ImageNet-1k, MobileViTv3-XXS et MobileViTv3-XS dépassent respectivement MobileViTv1-XXS et MobileViTv1-XS de 2 % et 1,9 %. L'architecture récemment publiée MobileViTv2 élimine le bloc de fusion et utilise des transformateurs à complexité linéaire, offrant ainsi de meilleurs résultats que MobileViTv1. Nous intégrons notre bloc de fusion proposé dans MobileViTv2 afin de concevoir les nouveaux modèles MobileViTv3-0,5, 0,75 et 1,0. Ces modèles nouveaux obtiennent des performances supérieures sur ImageNet-1k, ADE20K, COCO et PascalVOC2012 par rapport à MobileViTv2. Sur ImageNet-1k, MobileViTv3-0,5 et MobileViTv3-0,75 surpassent respectivement MobileViTv2-0,5 et MobileViTv2-0,75 de 2,1 % et 1,0 %. Pour la tâche de segmentation, MobileViTv3-1,0 atteint un mIOU supérieur de 2,07 % et 1,1 % par rapport à MobileViTv2-1,0 sur les jeux de données ADE20K et PascalVOC2012 respectivement. Le code source et les modèles entraînés sont disponibles à l'adresse suivante : https://github.com/micronDLA/MobileViTv3


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MobileViTv3 : Vision Transformer adapté aux dispositifs mobiles avec une fusion simple et efficace des caractéristiques locales, globales et d'entrée | Articles | HyperAI