17 天前

MoReVQA:面向视频问答的模块化推理模型探索

Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid
MoReVQA:面向视频问答的模块化推理模型探索
摘要

本文提出了一种基于分解式多阶段、模块化推理框架的视频问答(VideoQA)方法。以往的模块化方法虽在单一规划阶段上展现出潜力,但该阶段缺乏与视觉内容的直接关联。然而,通过构建一个简单而有效的基线模型,我们发现此类系统在复杂视频问答场景中往往表现出脆弱的行为。因此,与传统的单阶段规划方法不同,本文提出一种多阶段系统,包含事件解析器、视觉定位阶段以及结合外部记忆的最终推理阶段。所有阶段均无需训练,仅通过大模型的少样本提示(few-shot prompting)实现,且在每个阶段均可生成可解释的中间输出。通过分解底层规划与任务的复杂性,所提出的MoReVQA方法在标准视频问答基准测试(NExT-QA、iVQA、EgoSchema、ActivityNet-QA)上取得了当前最优性能,并成功拓展至相关任务(如基于视觉定位的视频问答、段落描述生成)。