16 天前

Silkie:面向大型视觉语言模型的偏好蒸馏

Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
Silkie:面向大型视觉语言模型的偏好蒸馏
摘要

本文探讨了面向大规模视觉语言模型(Large Vision-Language Models, LVLMs)的偏好蒸馏方法,旨在提升模型生成与视觉上下文紧密关联、且具有帮助性与忠实性的响应能力。首先,我们构建了一个基于人工智能标注的视觉语言反馈数据集(VLFeedback)。该数据集中的响应由来自12个不同LVLMs的模型生成,这些模型在来自多个数据集的多模态指令条件下进行推理。我们采用GPT-4V对生成结果在帮助性、视觉忠实性以及伦理合规性等方面进行评估。随后,通过直接偏好优化(Direct Preference Optimization, DPO)方法,将该偏好监督信号蒸馏至Qwen-VL-Chat模型中,最终得到的模型名为Silkie。在MME基准测试中,Silkie在感知能力与认知能力方面分别实现了6.9%和9.5%的相对性能提升。此外,在MMHal-Bench基准测试中,Silkie将幻觉率降至新低,取得了3.02的最优得分,标志着该领域的新状态。进一步分析表明,基于我们构建的VLFeedback数据集进行DPO训练,主要增强了LVLMs在细粒度感知与复杂认知任务上的表现,相较人类标注的偏好数据集,带来了更为全面的性能改进。

Silkie:面向大型视觉语言模型的偏好蒸馏 | 最新论文 | HyperAI超神经