Optimiseurs BlackBox
En 2024, l'Université Carnegie Mellon (CMU) a proposé une nouvelle stratégie d'optimisation de boîte noire qui ajuste automatiquement les signaux de langage naturel via un grand modèle de langage pour optimiser les performances des modèles de langage visuel (VLM) dans plusieurs tâches en aval telles que les graphiques de texte et la reconnaissance visuelle. Cette méthode non seulement ne nécessite pas de toucher aux paramètres internes du modèle, mais améliore également considérablement la flexibilité et la vitesse d'optimisation, permettant aux utilisateurs sans formation technique d'améliorer facilement les performances du modèle. Les résultats de recherche pertinents sontModèles de langage comme optimiseurs de boîte noire pour les modèles vision-langage", cette recherche a été acceptée par CVPR 2024.

Plus précisément, les chercheurs ont optimisé les VLM à l’aide d’invites en langage naturel, ce qui évite d’obtenir des paramètres de modèle, des intégrations de fonctionnalités et des cotes logarithmiques de sortie. Plus précisément, les grands modèles de langage (LLM) basés sur le chat sont utilisés pour rechercher les meilleures invites de texte pour les VLM via une procédure automatique de « montée de colline », qui peut faire converger les invites vers un état valide pendant la conversation sans intervention humaine.
Dans le cadre difficile de la classification d'images en une seule fois, la méthode simple proposée est testée sur 11 ensembles de données, dont ImageNet, et surpasse la méthode d'invite continue en boîte blanche (CoOp) de 1,5% en moyenne, et surpasse les invites conçues manuellement ainsi que les invites générées par les LLM. L’étude souligne également les avantages d’un retour conversationnel contenant des indices positifs et négatifs, car les LLM sont capables d’exploiter la direction implicite du « gradient » dans le retour textuel pour obtenir une recherche plus efficace. De plus, les invites textuelles générées par cette stratégie sont non seulement plus interprétables, mais se transfèrent également bien entre différentes architectures VLM de manière boîte noire.
Enfin, ce cadre est appliqué pour optimiser un VLM de boîte noire de pointe (DALL-E 3) pour la génération de texte en image, l'inversion rapide et la personnalisation.