8 个月前

摘要

多模态大语言模型（Multimodal Large Language Models, MLLMs）在基于视觉输入生成响应方面表现出色。然而，这类模型往往存在一种倾向：生成的回应与预训练语料库中的统计特征高度相似，从而掩盖了视觉信息的重要性。我们将这种倾向视为对预训练统计分布的“偏好”，这种偏好会削弱模型对视觉输入的准确感知与理解。为缓解该问题，我们提出了一种名为自举偏好优化（Bootstrapped Preference Optimization, BPO）的方法，通过构建包含负样本的偏好学习数据集来实现模型优化。具体而言，我们提出了两种策略：1）向MLLM输入经过畸变的图像，以诱导模型生成体现出预训练偏差的响应；2）利用基于文本的大语言模型（LLM），在原始响应中显式注入常见但错误的元素。这些不理想（有偏差）的响应与数据集中原始标注的正确响应配对，构成偏好数据集，进而用于偏好学习。实验结果表明，该方法能有效抑制预训练语言模型的固有偏差，显著提升模型对视觉输入的语义 grounding 能力。在多个基准测试中，我们的方法均实现了显著的性能提升，推动了多模态对话系统领域的技术进步，达到了当前最先进的水平。

源 PDF