5 个月前

摘要

视频多模态大语言模型（Video-MLLMs）在视频理解任务中取得了显著进展。然而，这些模型仍容易产生与视频输入内容不一致或无关的幻觉现象。以往的视频幻觉评测基准主要针对短视频，其研究多将幻觉归因于强语言先验、帧缺失，或视觉编码器引入的视觉-语言偏差等因素。尽管这些因素确实在短视频中导致了大多数幻觉，但它们对幻觉成因的解释仍过于简化。在某些情况下，模型虽生成了错误的输出，但其帧级语义内容却是正确的。我们将这种类型的幻觉称为语义聚合幻觉（Semantic Aggregation Hallucination, SAH），它产生于将帧级语义聚合为事件级语义群的过程中。由于在长视频中，多个事件带来的语义复杂度显著增加，SAH问题尤为突出，因此有必要将其与其他类型的幻觉区分开来，并进行深入系统的研究。为应对上述挑战，我们提出了ELV-Halluc，这是首个专注于长视频幻觉的评测基准，旨在系统性地研究SAH现象。我们的实验验证了SAH的存在，并表明其发生概率随语义复杂度的提升而增加。此外，我们发现模型在面对快速变化的语义时更容易产生SAH。针对该问题，我们进一步探讨了潜在的缓解策略。实验表明，采用位置编码策略有助于缓解SAH，而进一步引入DPO（Direct Preference Optimization）训练策略，则能有效增强模型对事件内部及事件之间语义差异的区分能力。为支持上述研究，我们构建了一个包含8,000对对抗性数据的专用数据集，并在ELV-Halluc和Video-MME两个基准上均取得了显著提升，其中SAH比例降低了高达27.7%。

源 PDF