HyperAI

BlackBox-Optimierer

Im Jahr 2024 schlug die Carnegie Mellon University (CMU) eine neue Black-Box-Optimierungsstrategie vor, die natürliche Sprachhinweise automatisch durch ein großes Sprachmodell anpasst, um die Leistung visueller Sprachmodelle (VLMs) in mehreren nachgelagerten Aufgaben wie Textdiagrammen und visueller Erkennung zu optimieren. Bei dieser Methode müssen nicht nur die internen Parameter des Modells nicht berührt werden, sondern auch die Flexibilität und Geschwindigkeit der Optimierung werden erheblich verbessert, sodass Benutzer ohne technischen Hintergrund die Modellleistung problemlos verbessern können. Die relevanten Forschungsergebnisse sindSprachmodelle als Black-Box-Optimierer für Vision-Language-Modelle", diese Forschung wurde von CVPR 2024 angenommen.

Bildunterschrift: Vision-Language-Modelle (VLMs) werden mithilfe von chatbasierten Large Language Models (LLMs) aufgerufen. So wie menschliche Prompt-Ingenieure Prompts iterativ testen und optimieren, verwenden Forscher ChatGPT, um Prompts für visuelle Sprachmodelle (VLMs) kontinuierlich zu optimieren. Der iterative Ansatz der Studie bewertet die Leistung der von ChatGPT generierten Eingabeaufforderungen anhand eines Datensatzes mit wenigen Beispielen (blau hervorgehoben) und gibt ChatGPT Feedback durch eine einfache Konversation (violett markiert), wie in der Beispielabbildung gezeigt. Dieser einfache und unkomplizierte Ansatz erzielt hochmoderne Ergebnisse bei der Einzelbildklassifizierung von 11 Datensätzen mithilfe von CLIP und arbeitet im Black-Box-Verfahren ohne Zugriff auf Modellgewichte, Merkmalseinbettungen oder Ausgabe-Log-Odds. Untersuchungen zeigen, dass die Effektivität durch die Bereitstellung sowohl positiver (grüner) als auch negativer (roter) Hinweise verbessert wird. Insbesondere in diesem Szenario mit extrem geringer Stichprobe übertrifft unser Ansatz White-Box-Methoden wie gradientenbasierte kontinuierliche Eingabeaufforderungen (CoOp) und handgefertigte Eingabeaufforderungen. Das Diagramm zeigt nur eine typische Konversation unter Verwendung der ChatGPT-Web-Benutzeroberfläche. Die Codeimplementierung dieser Studie wurde mithilfe der ChatGPT-API in diesem Modus durchgeführt.

Insbesondere optimierten die Forscher VLMs mithilfe natürlicher Spracheingabeaufforderungen, wodurch die Erfassung von Modellparametern, Merkmalseinbettungen und Ausgabe-Log-Odds vermieden wird. Insbesondere werden chatbasierte große Sprachmodelle (LLMs) verwendet, um durch ein automatisches „Hill-Climbing“-Verfahren nach den besten Textaufforderungen für VLMs zu suchen, wodurch die Aufforderungen während des Gesprächs ohne menschliches Eingreifen in einen gültigen Zustand konvergieren können.

In der anspruchsvollen Umgebung der einmaligen Bildklassifizierung wird die vorgeschlagene einfache Methode an 11 Datensätzen einschließlich ImageNet getestet und übertrifft die White-Box-Continuous-Prompt-Methode (CoOp) im Durchschnitt um 1,5% und übertrifft manuell erstellte Prompts sowie von LLMs generierte Prompts. Die Studie hebt außerdem die Vorteile von Konversationsfeedback mit positiven und negativen Hinweisen hervor, da LLMs die implizite „Gradienten“-Richtung im Textfeedback ausnutzen können, um eine effizientere Suche zu erreichen. Darüber hinaus sind die durch diese Strategie generierten Textaufforderungen nicht nur besser interpretierbar, sondern lassen sich auch im Black-Box-Verfahren gut zwischen verschiedenen VLM-Architekturen übertragen.

Schließlich wird dieses Framework angewendet, um ein hochmodernes Black-Box-VLM (DALL-E 3) für die Text-zu-Bild-Generierung, die sofortige Umkehrung und die Personalisierung zu optimieren.