HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation du prompt multimodal : Pourquoi ne pas exploiter plusieurs modalités pour les MLLM

Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

Résumé

Les modèles de langage à grande échelle (LLM) ont connu un succès remarquable, et leurs extensions multimodales (MLLM) permettent désormais d’exploiter des capacités s’étendant aux images, vidéos et autres modalités au-delà du texte. Toutefois, malgré ce changement de paradigme, les approches d’optimisation des prompts, conçues pour réduire la charge liée à la création manuelle des prompts tout en maximisant les performances, restent cantonnées au domaine textuel, limitant ainsi pleinement le potentiel des MLLM. Inspirés par cet écart, nous introduisons un nouveau problème : l’optimisation multimodale des prompts, qui étend la définition antérieure de l’optimisation des prompts au domaine multimodal défini par les paires de prompts textuels et non textuels. Pour relever ce défi, nous proposons le Multimodal Prompt Optimizer (MPO), un cadre unifié qui réalise à la fois une optimisation conjointe des prompts multimodaux par des mises à jour préservant l’alignement, et oriente le processus de sélection des prompts candidats en exploitant les évaluations antérieures comme a priori dans une stratégie de sélection fondée sur le bayésien. À travers des expérimentations approfondies sur diverses modalités dépassant le texte — telles que les images, vidéos, voire des molécules —, nous démontrons que MPO surpasser les méthodes d’optimisation les plus avancées limitées au texte, établissant ainsi l’optimisation multimodale des prompts comme une étape cruciale pour réaliser tout le potentiel des MLLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp