Au-delà de la Force Unique : Des Ensembles Personnalisés pour les Modèles Vision-Language Généralisés

Le fine-tuning des modèles vision-langage pré-entraînés (VLM), tels que CLIP, pour une généralisation en monde ouvert connaît un intérêt croissant en raison de leur valeur pratique. Toutefois, les progrès en termes de performance restent limités lorsqu’on se fie uniquement à des conceptions algorithmiques complexes pour un seul modèle, même un modèle performant comme CLIP-ViT-B/16. Ce papier explore pour la première fois le potentiel collaboratif de l’utilisation de VLM plus faibles afin d’améliorer la généralisation d’un modèle unique robuste. Les résultats positifs obtenus nous incitent à aborder le problème de la généralisation sous une nouvelle perspective : l’ensemble de VLM pré-entraînés. Nous introduisons trois stratégies d’ensemble personnalisées, chacune adaptée à un scénario spécifique. Premièrement, nous proposons l’ensemble zéro-shot, ajustant automatiquement les logits des différents modèles en fonction de leur confiance, lorsque seuls des VLM pré-entraînés sont disponibles. En outre, pour les scénarios disposant de quelques exemples supplémentaires, nous proposons l’ensemble sans entraînement et sans réglage, offrant une flexibilité en fonction de la disponibilité des ressources informatiques. Les stratégies d’ensemble proposées sont évaluées sur des tâches de généralisation zéro-shot, base-to-new et cross-dataset, atteignant de nouveaux états de l’art. Notamment, ce travail constitue une première étape vers l’amélioration de la performance de généralisation des VLM par l’approche d’ensemble. Le code est disponible à l’adresse suivante : https://github.com/zhiheLu/Ensemble_VLM.git.