BlackBox-Optimierer
Im Jahr 2024 schlug die Carnegie Mellon University (CMU) eine neue Black-Box-Optimierungsstrategie vor, die natürliche Sprachhinweise automatisch durch ein großes Sprachmodell anpasst, um die Leistung visueller Sprachmodelle (VLMs) in mehreren nachgelagerten Aufgaben wie Textdiagrammen und visueller Erkennung zu optimieren. Bei dieser Methode müssen nicht nur die internen Parameter des Modells nicht berührt werden, sondern auch die Flexibilität und Geschwindigkeit der Optimierung werden erheblich verbessert, sodass Benutzer ohne technischen Hintergrund die Modellleistung problemlos verbessern können. Die relevanten Forschungsergebnisse sindSprachmodelle als Black-Box-Optimierer für Vision-Language-Modelle", diese Forschung wurde von CVPR 2024 angenommen.

Insbesondere optimierten die Forscher VLMs mithilfe natürlicher Spracheingabeaufforderungen, wodurch die Erfassung von Modellparametern, Merkmalseinbettungen und Ausgabe-Log-Odds vermieden wird. Insbesondere werden chatbasierte große Sprachmodelle (LLMs) verwendet, um durch ein automatisches „Hill-Climbing“-Verfahren nach den besten Textaufforderungen für VLMs zu suchen, wodurch die Aufforderungen während des Gesprächs ohne menschliches Eingreifen in einen gültigen Zustand konvergieren können.
In der anspruchsvollen Umgebung der einmaligen Bildklassifizierung wird die vorgeschlagene einfache Methode an 11 Datensätzen einschließlich ImageNet getestet und übertrifft die White-Box-Continuous-Prompt-Methode (CoOp) im Durchschnitt um 1,5% und übertrifft manuell erstellte Prompts sowie von LLMs generierte Prompts. Die Studie hebt außerdem die Vorteile von Konversationsfeedback mit positiven und negativen Hinweisen hervor, da LLMs die implizite „Gradienten“-Richtung im Textfeedback ausnutzen können, um eine effizientere Suche zu erreichen. Darüber hinaus sind die durch diese Strategie generierten Textaufforderungen nicht nur besser interpretierbar, sondern lassen sich auch im Black-Box-Verfahren gut zwischen verschiedenen VLM-Architekturen übertragen.
Schließlich wird dieses Framework angewendet, um ein hochmodernes Black-Box-VLM (DALL-E 3) für die Text-zu-Bild-Generierung, die sofortige Umkehrung und die Personalisierung zu optimieren.