Command Palette
Search for a command to run...
通过自举偏好优化增强多模态大语言模型
通过自举偏好优化增强多模态大语言模型
Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang
摘要
多模态大语言模型(Multimodal Large Language Models, MLLMs)在基于视觉输入生成响应方面表现出色。然而,这类模型往往存在一种倾向:生成的回应与预训练语料库中的统计特征高度相似,从而掩盖了视觉信息的重要性。我们将这种倾向视为对预训练统计分布的“偏好”,这种偏好会削弱模型对视觉输入的准确感知与理解。为缓解该问题,我们提出了一种名为自举偏好优化(Bootstrapped Preference Optimization, BPO)的方法,通过构建包含负样本的偏好学习数据集来实现模型优化。具体而言,我们提出了两种策略:1)向MLLM输入经过畸变的图像,以诱导模型生成体现出预训练偏差的响应;2)利用基于文本的大语言模型(LLM),在原始响应中显式注入常见但错误的元素。这些不理想(有偏差)的响应与数据集中原始标注的正确响应配对,构成偏好数据集,进而用于偏好学习。实验结果表明,该方法能有效抑制预训练语言模型的固有偏差,显著提升模型对视觉输入的语义 grounding 能力。在多个基准测试中,我们的方法均实现了显著的性能提升,推动了多模态对话系统领域的技术进步,达到了当前最先进的水平。