12 天前
Vista-LLaMA:通过视觉token的等距约束降低视频语言模型中的幻觉
Fan Ma, Xiaojie Jin, Heng Wang, Yuchen Xian, Jiashi Feng, Yi Yang

摘要
近年来,大规模视频-语言模型在视频理解任务中展现出令人瞩目的成果。现有方法通常将视频直接转换为语言标记(tokens),并利用大型语言模型完成多模态任务。然而,这种方法在生成文本长度增加时,容易导致与视频内容无关的虚假信息生成,即所谓的“幻觉”(hallucination)现象,同时视频信息的影响力也随之减弱。为解决这一问题,我们提出了一种名为 Vista-LLaMA 的新框架。该框架通过保持所有视觉标记与任意语言标记之间的相对距离一致性,无论生成文本的长度如何,均能有效维持视觉信息对语言生成的稳定影响。Vista-LLaMA 在计算视觉标记与语言标记之间的注意力权重时,摒弃了相对位置编码,仅保留语言标记自身的位置编码。这一设计显著增强了视觉标记对文本生成的影响,尤其在视觉与语言标记间相对距离较远时更为明显。所提出的注意力机制大幅降低了生成与视频内容无关文本的概率。此外,我们设计了一种顺序视觉投影器(sequential visual projector),借助前一帧视频信息,将当前视频帧映射到语言空间中的标记。该方法不仅有效捕捉了视频内部的时间依赖关系,还使得更少的视觉标记即可涵盖整段视频内容。在四个具有挑战性的开放式视频问答基准测试中,我们的方法显著优于多种先前模型(如 Video-ChatGPT、MovieChat)。在零样本设置下,Vista-LLaMA 在 NExT-QA 上达到 60.7 的准确率,在 MSRVTT-QA 上达到 60.5,刷新了该任务的最新技术水平。相关项目代码与详情可访问:https://jinxxian.github.io/Vista-LLaMA。