Un bon prompt vaut des millions de paramètres : apprentissage basé sur les prompts à faible ressource pour les modèles vision-langage

Les grands modèles vision-langage (VL) pré-entraînés peuvent apprendre une nouvelle tâche à partir de très peu d'exemples et généraliser à une tâche inédite sans fine-tuning. Toutefois, leur déploiement dans des applications réelles reste difficile en raison de leur taille considérable et de leur vitesse d'inférence trop lente. Pour surmonter cette limitation, nous proposons une méthode originale, FewVLM, fondée sur les prompts, pour l'apprentissage à faible ressource des tâches VL, dont la taille est relativement réduite par rapport aux apprentissages récents en few-shot. Pour FewVLM, nous pré-entraînons un modèle transformer séquence-à-séquence à l’aide de deux approches : le modèle de langage préfixe (PrefixLM) et le modèle de langage masqué (MaskedLM). En outre, nous analysons l’impact de divers types de prompts sur les tâches en few-shot. Les résultats expérimentaux sur VQA montrent que FewVLM, utilisant un apprentissage basé sur les prompts, surpasser par 18,2 points de pourcentage un modèle Frozen 31 fois plus volumineux, tout en atteignant des performances comparables à celles d’un modèle 246 fois plus grand, PICa. Dans notre analyse, nous observons que : (1) les prompts influencent fortement les performances en zero-shot, mais ont un effet marginal en few-shot ; (2) les modèles entraînés avec des prompts bruités apprennent aussi rapidement que ceux utilisant des prompts soigneusement conçus, à condition d’avoir accès à de plus grandes quantités de données d’entraînement ; (3) MaskedLM améliore les performances sur les tâches de question-réponse visuelle (VQA), tandis que PrefixLM renforce les performances en génération de légendes (captioning). Le code source de FewVLM est disponible publiquement à l’adresse suivante : \url{https://github.com/woojeongjin/FewVLM}