HyperAIHyperAI

Command Palette

Search for a command to run...

PRÉ : Apprentissage des prompts vision-langage avec un encodeur de réparamétrisation

Thi Minh Anh Pham An Duc Nguyen Cephas Svosve Vasileios Argyriou Georgios Tzimiropoulos

Résumé

Les grands modèles pré-entraînés vision-langage tels que CLIP ont démontré un potentiel considérable en termes de transfert zéro-shot vers des tâches spécifiques. Toutefois, pour atteindre des performances optimales, une sélection manuelle des prompts s'avère nécessaire afin d'améliorer l’alignement entre la distribution d’images de la tâche cible et les descriptions textuelles des classes. Ce processus d’ingénierie manuelle des prompts constitue le principal obstacle à l’adoption pratique de ces modèles, car il exige des compétences spécialisées et s’avère extrêmement chronophage. Afin d’éviter une telle ingénierie complexe, des travaux récents comme Context Optimization (CoOp) ont introduit la notion d’apprentissage de prompts dans le domaine vision en utilisant des tokens textuels apprenables. Bien que CoOp permette des améliorations significatives par rapport aux prompts manuels, les contextes appris présentent une capacité de généralisation limitée aux classes inconnues plus larges au sein du même jeu de données. Dans ce travail, nous proposons Prompt Learning with Reparameterization Encoder (PRE) – une méthode simple et efficace qui améliore la capacité de généralisation du prompt apprenable aux classes inconnues, tout en préservant sa capacité à apprendre les classes de base. Contrairement à une optimisation directe des prompts, PRE utilise un encodeur de prompts pour réparamétrer les embeddings d’entrée, ce qui renforce l’exploration des connaissances spécifiques à la tâche à partir d’échantillons en faible quantité. Des expériences et des études ablatives étendues sur 8 benchmarks démontrent que notre approche est une méthode efficace pour l’apprentissage de prompts. Plus précisément, PRE obtient une amélioration notable de 5,60 % en précision moyenne sur les nouvelles classes et une augmentation de 3 % en moyenne harmonique par rapport à CoOp dans le cadre de 16 exemples, toutes ces performances étant atteintes dans un temps d’entraînement raisonnable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp