HyperAI

Optimiseurs BlackBox

En 2024, l'Université Carnegie Mellon (CMU) a proposé une nouvelle stratégie d'optimisation de boîte noire qui ajuste automatiquement les signaux de langage naturel via un grand modèle de langage pour optimiser les performances des modèles de langage visuel (VLM) dans plusieurs tâches en aval telles que les graphiques de texte et la reconnaissance visuelle. Cette méthode non seulement ne nécessite pas de toucher aux paramètres internes du modèle, mais améliore également considérablement la flexibilité et la vitesse d'optimisation, permettant aux utilisateurs sans formation technique d'améliorer facilement les performances du modèle. Les résultats de recherche pertinents sontModèles de langage comme optimiseurs de boîte noire pour les modèles vision-langage", cette recherche a été acceptée par CVPR 2024.

Légende : Les modèles de langage vision (VLM) sont sollicités à l'aide de grands modèles de langage (LLM) basés sur le chat. Tout comme les ingénieurs en invites humaines testent et optimisent de manière itérative les invites, les chercheurs utilisent ChatGPT pour optimiser en continu les invites pour les modèles de langage visuel (VLM). L’approche itérative de l’étude évalue les performances des invites générées par ChatGPT sur un ensemble de données à quelques prises (surlignées en bleu) et fournit un retour d’information à ChatGPT via une conversation simple (marquée en violet), comme illustré dans l’exemple de figure. Cette approche simple et directe permet d'obtenir des résultats de pointe en matière de classification d'images à prise unique sur 11 ensembles de données à l'aide de CLIP, et fonctionne de manière boîte noire sans accès aux pondérations du modèle, aux intégrations de fonctionnalités ou aux cotes logarithmiques de sortie. Les recherches montrent que fournir des signaux positifs (verts) et négatifs (rouges) améliore l’efficacité. Notamment, dans ce scénario à échantillon extrêmement faible, notre approche surpasse les méthodes de boîte blanche telles que les invites continues basées sur le gradient (CoOp) et les invites fabriquées à la main. Le diagramme montre une seule conversation typique utilisant l'interface Web ChatGPT. L'implémentation du code de cette étude a été réalisée à l'aide de l'API ChatGPT dans ce mode.

Plus précisément, les chercheurs ont optimisé les VLM à l’aide d’invites en langage naturel, ce qui évite d’obtenir des paramètres de modèle, des intégrations de fonctionnalités et des cotes logarithmiques de sortie. Plus précisément, les grands modèles de langage (LLM) basés sur le chat sont utilisés pour rechercher les meilleures invites de texte pour les VLM via une procédure automatique de « montée de colline », qui peut faire converger les invites vers un état valide pendant la conversation sans intervention humaine.

Dans le cadre difficile de la classification d'images en une seule fois, la méthode simple proposée est testée sur 11 ensembles de données, dont ImageNet, et surpasse la méthode d'invite continue en boîte blanche (CoOp) de 1,5% en moyenne, et surpasse les invites conçues manuellement ainsi que les invites générées par les LLM. L’étude souligne également les avantages d’un retour conversationnel contenant des indices positifs et négatifs, car les LLM sont capables d’exploiter la direction implicite du « gradient » dans le retour textuel pour obtenir une recherche plus efficace. De plus, les invites textuelles générées par cette stratégie sont non seulement plus interprétables, mais se transfèrent également bien entre différentes architectures VLM de manière boîte noire.

Enfin, ce cadre est appliqué pour optimiser un VLM de boîte noire de pointe (DALL-E 3) pour la génération de texte en image, l'inversion rapide et la personnalisation.