Command Palette

Search for a command to run...

22 天前

多模态提示优化:为何不利用多种模态来提升MLLMs?

Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

多模态提示优化:为何不利用多种模态来提升MLLMs?

摘要

大型语言模型(LLMs)已展现出卓越的性能,其多模态扩展(MLLMs)进一步拓展了在图像、视频及其他非文本模态上的能力。然而,尽管这一范式发生了转变,现有的提示优化方法仍局限于文本领域,这些方法旨在减轻人工构造提示的负担并最大化模型性能,但其局限性也制约了MLLMs全部潜能的释放。针对这一差距,我们提出了多模态提示优化这一新问题,将传统提示优化的定义拓展至由文本与非文本提示对构成的多模态空间。为解决该问题,我们进一步提出多模态提示优化器(Multimodal Prompt Optimizer, MPO),这是一种统一框架,不仅能够通过保持对齐关系的更新策略实现多模态提示的联合优化,还基于贝叶斯选择策略,利用先前评估结果作为先验信息,指导候选提示的选择过程。通过在超越文本的多种模态(如图像、视频,甚至分子结构)上开展的大量实验,我们证明MPO显著优于当前主流的纯文本提示优化方法,从而确立了多模态提示优化作为释放MLLMs潜力的关键步骤。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供