Command Palette

Search for a command to run...

MIA-DPO 多图像增强的偏好对齐方法

日期

1 年前

MIA-DPO (Multi-Image Augmented Direct Preference Optimization) 是一种面向大型视觉语言模型 (LVLMs) 的多图像增强的偏好对齐方法,由上海交通大学、上海人工智能实验室、香港中文大学等机构在 2024 年联合提出,相关论文成果为「MIA-DPO: Multi-Image Augmented Direct Preference Optimization for Large Vision-Language Models」。这种方法的核心在于通过将单图像数据扩展至多图像数据,并设计序列、网格拼贴和图中图 3 种数据格式,有效降低了数据收集和标注的成本,同时具有高度的可扩展性。

MIA-DPO 的关键在于利用注意力机制来识别和过滤模型可能错误关注的被拒绝响应,从而构建选择/拒绝对,而无需依赖人工标注或额外数据。实验结果表明,MIA-DPO 在 5 个多图像基准测试上表现优异,平均性能提升了 3.0%(在 LLaVA-v1.5 上)和 4.3%(在 InternLM-XC2.5 上),同时对单图像理解能力的影响较小。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供