vor 22 Tagen

Multimodale Prompt-Optimierung: Warum mehrere Modalitäten nicht für MLLMs genutzt werden sollten

Details der Forschungsarbeit anzeigen Code anzeigen

Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

Multimodale Prompt-Optimierung: Warum mehrere Modalitäten nicht für MLLMs genutzt werden sollten

Abstract

Große Sprachmodelle (Large Language Models, LLMs) haben beachtliche Erfolge erzielt, und ihre multimodalen Erweiterungen (Multimodal Large Language Models, MLLMs) eröffnen zusätzliche Fähigkeiten, die sich über Bilder, Videos und andere Modalitäten hinaus auf Text erstrecken. Dennoch bleiben die bisherigen Ansätze zur Prompt-Optimierung, die darauf abzielen, die Belastung durch manuelles Prompt-Design zu verringern, während gleichzeitig die Leistung maximiert wird, auf den Textbereich beschränkt – was letztlich das volle Potenzial von MLLMs einschränkt. Ausgehend von dieser Lücke führen wir das neue Problem der multimodalen Prompt-Optimierung ein, das die vorherige Definition der Prompt-Optimierung auf den multimodalen Raum erweitert, der durch Paare aus textuellen und nicht-textuellen Prompts definiert ist. Um dieses Problem zu lösen, stellen wir den Multimodal Prompt Optimizer (MPO) vor, einen einheitlichen Rahmen, der nicht nur die gemeinsame Optimierung multimodaler Prompts durch alignmenterhaltende Updates ermöglicht, sondern auch den Auswahlprozess von Kandidaten-Prompts durch Ausnutzung früherer Bewertungen als Prior in einer bayesschen Selektionsstrategie leitet. Anhand umfangreicher Experimente an verschiedenen Modalitäten jenseits von Text – beispielsweise Bildern, Videos und sogar Molekülen – zeigen wir, dass MPO führende, rein textbasierte Optimierungsverfahren übertrifft und damit die multimodale Prompt-Optimierung als entscheidenden Schritt zur Realisierung des Potenzials von MLLMs etabliert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Multimodale Prompt-Optimierung: Warum mehrere Modalitäten nicht für MLLMs genutzt werden sollten

Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

Abstract

KI mit KI entwickeln

Hyper Newsletters