HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de l'induction pour les modèles vision-langue

Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu

Résumé

Les grands modèles pré-entraînés de vision-langue comme CLIP ont montré un grand potentiel pour apprendre des représentations transférables à une large gamme de tâches en aval. Contrairement à l'apprentissage traditionnel des représentations, qui repose principalement sur des étiquettes discrétisées, la pré-entraîne de la vision-langue aligne les images et les textes dans un espace de caractéristiques commun, ce qui permet le transfert zéro-shot vers une tâche en aval par le biais d'une incitation, c'est-à-dire que les poids de classification sont synthétisés à partir d'un langage naturel décrivant les classes d'intérêt.Dans cette étude, nous montrons qu'un défi majeur pour le déploiement pratique de ces modèles est l'ingénierie des incitations, qui nécessite une expertise du domaine et est extrêmement fastidieuse -- il faut consacrer beaucoup de temps à l'affinement des mots car un changement minime dans la formulation peut avoir un impact considérable sur les performances. Inspirés par les récentes avancées dans la recherche sur l'ingénierie des incitations en traitement du langage naturel (NLP), nous proposons l'Optimisation du Contexte (CoOp), une approche simple spécifiquement conçue pour adapter des modèles de vision-langue similaires à CLIP aux tâches d'identification d'images en aval.Plus précisément, CoOp modélise les mots contextuels d'une incitation avec des vecteurs apprenables tout en conservant fixes tous les paramètres pré-entraînés. Pour gérer différentes tâches d'identification d'images, nous fournissons deux implémentations de CoOp : un contexte unifié et un contexte spécifique aux classes. À travers des expériences exhaustives sur 11 jeux de données, nous démontrons que CoOp nécessite aussi peu qu'une ou deux incitations pour surpasser les incitations élaborées manuellement avec une marge confortable et est capable d'obtenir des améliorations significatives par rapport à l'ingénierie des incitations avec plus d'exemples, par exemple, avec 16 incitations, le gain moyen est d'environ 15 % (avec le meilleur atteignant plus de 45 %). Malgré son approche basée sur l'apprentissage, CoOp offre des performances exceptionnelles de généralisation inter-domaines comparées au modèle zéro-shot utilisant des incitations élaborées manuellement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp