Command Palette

Search for a command to run...

2 个月前

ELV-Halluc:长视频理解中语义聚合幻觉的基准测试

Hao Lu Jiahao Wang Yaolun Zhang Ruohui Wang Xuanyu Zheng Yepeng Tang Dahua Lin Lewei Lu

ELV-Halluc:长视频理解中语义聚合幻觉的基准测试

摘要

视频多模态大语言模型(Video-MLLMs)在视频理解任务中取得了显著进展。然而,这些模型仍容易产生与视频输入内容不一致或无关的幻觉现象。以往的视频幻觉评测基准主要针对短视频,其研究多将幻觉归因于强语言先验、帧缺失,或视觉编码器引入的视觉-语言偏差等因素。尽管这些因素确实在短视频中导致了大多数幻觉,但它们对幻觉成因的解释仍过于简化。在某些情况下,模型虽生成了错误的输出,但其帧级语义内容却是正确的。我们将这种类型的幻觉称为语义聚合幻觉(Semantic Aggregation Hallucination, SAH),它产生于将帧级语义聚合为事件级语义群的过程中。由于在长视频中,多个事件带来的语义复杂度显著增加,SAH问题尤为突出,因此有必要将其与其他类型的幻觉区分开来,并进行深入系统的研究。为应对上述挑战,我们提出了ELV-Halluc,这是首个专注于长视频幻觉的评测基准,旨在系统性地研究SAH现象。我们的实验验证了SAH的存在,并表明其发生概率随语义复杂度的提升而增加。此外,我们发现模型在面对快速变化的语义时更容易产生SAH。针对该问题,我们进一步探讨了潜在的缓解策略。实验表明,采用位置编码策略有助于缓解SAH,而进一步引入DPO(Direct Preference Optimization)训练策略,则能有效增强模型对事件内部及事件之间语义差异的区分能力。为支持上述研究,我们构建了一个包含8,000对对抗性数据的专用数据集,并在ELV-Halluc和Video-MME两个基准上均取得了显著提升,其中SAH比例降低了高达27.7%。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ELV-Halluc:长视频理解中语义聚合幻觉的基准测试 | 论文 | HyperAI超神经