Command Palette
Search for a command to run...
Optimisation du prompt multimodal : Pourquoi ne pas exploiter plusieurs modalités pour les MLLM
Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

Résumé
Les modèles de langage à grande échelle (LLM) ont connu un succès remarquable, et leurs extensions multimodales (MLLM) permettent désormais d’exploiter des capacités s’étendant aux images, vidéos et autres modalités au-delà du texte. Toutefois, malgré ce changement de paradigme, les approches d’optimisation des prompts, conçues pour réduire la charge liée à la création manuelle des prompts tout en maximisant les performances, restent cantonnées au domaine textuel, limitant ainsi pleinement le potentiel des MLLM. Inspirés par cet écart, nous introduisons un nouveau problème : l’optimisation multimodale des prompts, qui étend la définition antérieure de l’optimisation des prompts au domaine multimodal défini par les paires de prompts textuels et non textuels. Pour relever ce défi, nous proposons le Multimodal Prompt Optimizer (MPO), un cadre unifié qui réalise à la fois une optimisation conjointe des prompts multimodaux par des mises à jour préservant l’alignement, et oriente le processus de sélection des prompts candidats en exploitant les évaluations antérieures comme a priori dans une stratégie de sélection fondée sur le bayésien. À travers des expérimentations approfondies sur diverses modalités dépassant le texte — telles que les images, vidéos, voire des molécules —, nous démontrons que MPO surpasser les méthodes d’optimisation les plus avancées limitées au texte, établissant ainsi l’optimisation multimodale des prompts comme une étape cruciale pour réaliser tout le potentiel des MLLM.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.