2 个月前
帧过多,非全有用:长视频问答的有效策略
Jongwoo Park; Kanchana Ranasinghe; Kumara Kahatapitiya; Wonjeong Ryu; Donghyun Kim; Michael S. Ryoo

摘要
长时段视频跨越了较长时间间隔,具有高度的信息冗余性,并包含多个通常关系较为松散的不同事件或实体。因此,在进行长时段视频问答(LVQA)时,生成正确答案所需的所有信息往往可以包含在一小部分关键帧中。近期的研究探索了大型语言模型(LLMs)在LVQA基准测试中的应用,取得了卓越的性能,但这些模型依赖视觉语言模型(VLMs)将视频中的所有视觉内容转换为自然语言。这种VLMs通常会独立地对从长视频中均匀采样的大量帧进行描述,这不仅效率低下,而且大部分内容是冗余的。针对这些决策选择,我们探讨了最优的关键帧选择策略,以显著减少这些冗余性,即分层关键帧选择器(Hierarchical Keyframe Selector)。我们提出的框架LVNet在三个基准LVQA数据集EgoSchema、NExT-QA和IntentQA上达到了最先进的性能,并且在VideoMME长达一小时的视频中也表现出色。我们的代码将公开发布。代码可以在https://github.com/jongwoopark7978/LVNet找到。