VistaDPO:用于大型视频模型的视频层次空间-时间直接偏好优化
Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
发布日期: 4/18/2025

摘要
基于大型语言模型(LLMs)的大型视频模型(LVMs)在视频理解方面展现出巨大潜力,但常常面临与人类直觉不一致和视频幻觉问题。为了解决这些挑战,我们引入了VistaDPO,一种用于视频层次时空直接偏好优化的新型框架。VistaDPO在三个层次上增强了文本-视频偏好对齐:i) 实例层次,将整体视频内容与响应对齐;ii) 时序层次,将视频时序语义与事件描述对齐;iii) 感知层次,将空间对象与语言标记对齐。鉴于缺乏用于细粒度视频-语言偏好对齐的数据集,我们构建了VistaDPO-7k数据集,该数据集包含7.2万个带有选择和拒绝响应标注的问答对,以及时间戳、关键帧和边界框等时空定位信息。在诸如视频幻觉、视频问答和字幕生成等基准任务上的大量实验表明,VistaDPO显著提升了现有LVMs的性能,有效缓解了视频-语言不一致和幻觉问题。代码和数据可在https://github.com/HaroldChen19/VistaDPO获取。