
摘要
大型语言模型(如GPT-3)已经展示了在无需特定任务训练数据的情况下适应新任务的令人印象深刻的能力。这种能力在叙事问答等场景中尤为有效,尽管任务种类繁多,但可用的监督数据量却相对较小。在这项研究中,我们探讨了这些语言模型是否能够将其零样本推理能力扩展到多媒体内容(如戏剧、电影和动画)中的长篇多模态叙事,其中故事起着至关重要的作用。为此,我们提出了一种名为“Long Story Short”的框架,该框架首先将视频的叙事内容总结为简短的情节概述,然后搜索与问题相关联的视频片段。此外,我们还提出了通过CLIPCheck增强视觉匹配的方法。我们的模型在长视频问答方面大幅超越了最先进的监督模型,突显了零样本问答在长视频领域的潜力。