Command Palette
Search for a command to run...
Hao Lu Jiahao Wang Yaolun Zhang Ruohui Wang Xuanyu Zheng Yepeng Tang Dahua Lin Lewei Lu

摘要
视频多模态大语言模型(Video-MLLMs)在视频理解任务中取得了显著进展。然而,这些模型仍容易产生与视频输入内容不一致或无关的幻觉现象。以往的视频幻觉评测基准主要针对短视频,其研究多将幻觉归因于强语言先验、帧缺失,或视觉编码器引入的视觉-语言偏差等因素。尽管这些因素确实在短视频中导致了大多数幻觉,但它们对幻觉成因的解释仍过于简化。在某些情况下,模型虽生成了错误的输出,但其帧级语义内容却是正确的。我们将这种类型的幻觉称为语义聚合幻觉(Semantic Aggregation Hallucination, SAH),它产生于将帧级语义聚合为事件级语义群的过程中。由于在长视频中,多个事件带来的语义复杂度显著增加,SAH问题尤为突出,因此有必要将其与其他类型的幻觉区分开来,并进行深入系统的研究。为应对上述挑战,我们提出了ELV-Halluc,这是首个专注于长视频幻觉的评测基准,旨在系统性地研究SAH现象。我们的实验验证了SAH的存在,并表明其发生概率随语义复杂度的提升而增加。此外,我们发现模型在面对快速变化的语义时更容易产生SAH。针对该问题,我们进一步探讨了潜在的缓解策略。实验表明,采用位置编码策略有助于缓解SAH,而进一步引入DPO(Direct Preference Optimization)训练策略,则能有效增强模型对事件内部及事件之间语义差异的区分能力。为支持上述研究,我们构建了一个包含8,000对对抗性数据的专用数据集,并在ELV-Halluc和Video-MME两个基准上均取得了显著提升,其中SAH比例降低了高达27.7%。