MIA-DPO (Multi-Image Augmented Direct Preference Optimization) 是一种面向大型视觉语言模型 (LVLMs) 的多图像增强的偏好对齐方法,由上海交通大学、上海人工智能实验室、香港中文大学等机构在 2024 年联合提出,相关论文成果为「MIA-DPO: Multi-Image Augmented Direct Preference Optimization for Large Vision-Language Models」。这种方法的核心在于通过将单图像数据扩展至多图像数据,并设计序列、网格拼贴和图中图 3 种数据格式,有效降低了数据收集和标注的成本,同时具有高度的可扩展性。
MIA-DPO 的关键在于利用注意力机制来识别和过滤模型可能错误关注的被拒绝响应,从而构建选择/拒绝对,而无需依赖人工标注或额外数据。实验结果表明,MIA-DPO 在 5 个多图像基准测试上表现优异,平均性能提升了 3.0%(在 LLaVA-v1.5 上)和 4.3%(在 InternLM-XC2.5 上),同时对单图像理解能力的影响较小。