Command Palette
Search for a command to run...
Multimodale Prompt-Optimierung: Warum mehrere Modalitäten nicht für MLLMs genutzt werden sollten
Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

Abstract
Große Sprachmodelle (Large Language Models, LLMs) haben beachtliche Erfolge erzielt, und ihre multimodalen Erweiterungen (Multimodal Large Language Models, MLLMs) eröffnen zusätzliche Fähigkeiten, die sich über Bilder, Videos und andere Modalitäten hinaus auf Text erstrecken. Dennoch bleiben die bisherigen Ansätze zur Prompt-Optimierung, die darauf abzielen, die Belastung durch manuelles Prompt-Design zu verringern, während gleichzeitig die Leistung maximiert wird, auf den Textbereich beschränkt – was letztlich das volle Potenzial von MLLMs einschränkt. Ausgehend von dieser Lücke führen wir das neue Problem der multimodalen Prompt-Optimierung ein, das die vorherige Definition der Prompt-Optimierung auf den multimodalen Raum erweitert, der durch Paare aus textuellen und nicht-textuellen Prompts definiert ist. Um dieses Problem zu lösen, stellen wir den Multimodal Prompt Optimizer (MPO) vor, einen einheitlichen Rahmen, der nicht nur die gemeinsame Optimierung multimodaler Prompts durch alignmenterhaltende Updates ermöglicht, sondern auch den Auswahlprozess von Kandidaten-Prompts durch Ausnutzung früherer Bewertungen als Prior in einer bayesschen Selektionsstrategie leitet. Anhand umfangreicher Experimente an verschiedenen Modalitäten jenseits von Text – beispielsweise Bildern, Videos und sogar Molekülen – zeigen wir, dass MPO führende, rein textbasierte Optimierungsverfahren übertrifft und damit die multimodale Prompt-Optimierung als entscheidenden Schritt zur Realisierung des Potenzials von MLLMs etabliert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.