il y a 22 jours

Optimisation du prompt multimodal : Pourquoi ne pas exploiter plusieurs modalités pour les MLLM

Voir les détails de l'article Voir le code

Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

Optimisation du prompt multimodal : Pourquoi ne pas exploiter plusieurs modalités pour les MLLM

Résumé

Les modèles de langage à grande échelle (LLM) ont connu un succès remarquable, et leurs extensions multimodales (MLLM) permettent désormais d’exploiter des capacités s’étendant aux images, vidéos et autres modalités au-delà du texte. Toutefois, malgré ce changement de paradigme, les approches d’optimisation des prompts, conçues pour réduire la charge liée à la création manuelle des prompts tout en maximisant les performances, restent cantonnées au domaine textuel, limitant ainsi pleinement le potentiel des MLLM. Inspirés par cet écart, nous introduisons un nouveau problème : l’optimisation multimodale des prompts, qui étend la définition antérieure de l’optimisation des prompts au domaine multimodal défini par les paires de prompts textuels et non textuels. Pour relever ce défi, nous proposons le Multimodal Prompt Optimizer (MPO), un cadre unifié qui réalise à la fois une optimisation conjointe des prompts multimodaux par des mises à jour préservant l’alignement, et oriente le processus de sélection des prompts candidats en exploitant les évaluations antérieures comme a priori dans une stratégie de sélection fondée sur le bayésien. À travers des expérimentations approfondies sur diverses modalités dépassant le texte — telles que les images, vidéos, voire des molécules —, nous démontrons que MPO surpasser les méthodes d’optimisation les plus avancées limitées au texte, établissant ainsi l’optimisation multimodale des prompts comme une étape cruciale pour réaliser tout le potentiel des MLLM.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Optimisation du prompt multimodal : Pourquoi ne pas exploiter plusieurs modalités pour les MLLM

Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters