HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal

Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal

Résumé

Les modèles multimodaux image-texte fondamentaux tels que CLIP, dotés de capacités zero-shot, permettent une large gamme d’applications. MobileCLIP est une famille récente de modèles image-texte offrant une latence comprise entre 3 et 15 ms et un nombre de paramètres compris entre 50 et 150 M, avec une précision zero-shot de pointe. Les principaux éléments constitutifs de MobileCLIP sont ses architectures légères et à faible latence, ainsi qu’un nouvel entraînement renforcé multimodal qui rend l’enseignement par distillation de connaissances à partir de plusieurs générateurs de légendes et de modèles CLIP enseignants efficace, évolutif et reproductible. Dans cet article, nous améliorons l’entraînement renforcé multimodal de MobileCLIP grâce à : 1) des ensembles de modèles CLIP enseignants améliorés, entraînés sur le jeu de données DFN ; 2) des modèles générateurs de légendes (captioner teachers) améliorés, entraînés sur DFN puis affinés sur une sélection diversifiée de jeux de données image-légende de haute qualité. À l’aide d’analyses ablatives, nous découvrons de nouvelles insights, notamment l’importance de l’ajustement de la température dans la distillation de connaissances contrastive, l’efficacité de l’affinage des générateurs de légendes pour améliorer la diversité des légendes, ainsi que l’amélioration additive obtenue en combinant des légendes synthétiques générées par plusieurs modèles. Nous entraînons une nouvelle famille de modèles appelée MobileCLIP2, atteignant une précision zero-shot de pointe sur ImageNet-1k à faible latence. En particulier, nous observons une amélioration de 2,2 % de la précision sur ImageNet-1k pour MobileCLIP2-B par rapport à l’architecture MobileCLIP-B. Notamment, MobileCLIP2-S4 atteint la même précision zero-shot que SigLIP-SO400M/14 sur ImageNet-1k tout en étant deux fois plus petit, tout en surpassant DFN ViT-L/14 avec une latence 2,5 fois plus faible. Nous mettons à disposition nos modèles pré-entraînés (ce lien https) ainsi que le code pour la génération des données (ce lien https). Ce code de génération de données permet de créer facilement de nouveaux jeux de données renforcés avec des enseignants arbitraires, grâce à un traitement distribué et évolutif.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal | Articles de recherche | HyperAI