17 天前
MERLOT Reserve:通过视觉、语言与声音获取神经脚本知识
Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi

摘要
作为人类,我们生活在一个多模态的世界中,通过所有感官的协同作用构建对世界的整体认知。我们提出了MERLOT Reserve模型,该模型通过一种新颖的训练目标,联合建模视频在时间维度上的多模态信息,学习来自音频、字幕和视频帧的联合表示。给定一段视频,我们用MASK标记替换其中的部分文本和音频片段,模型则通过预测被掩码内容的正确形式来学习。该训练目标相较于现有方法具有更快的收敛速度,并在大规模数据上表现优异:我们在2000万条YouTube视频上进行了预训练。实证结果表明,MERLOT Reserve能够学习到强大的多模态表征。在微调后,该模型在视觉常识推理(Visual Commonsense Reasoning, VCR)、TVQA和Kinetics-600三个基准任务上均达到当前最优性能,分别超越先前最优方法5%、7%和1.5%。消融实验进一步表明,音频预训练对这些任务具有显著提升作用——即使在以图像为核心的VCR任务(无音频输入)中,音频预训练仍带来明显收益。此外,该模型的训练目标支持开箱即用的预测能力,展现出强大的多模态常识理解能力。在完全零样本(zero-shot)设置下,该模型在四项视频任务上取得了具有竞争力的表现,甚至在近期提出的场景化推理(Situated Reasoning, STAR)基准上超越了部分有监督方法。我们进一步分析了音频为何能促进视觉-语言表征的提升,揭示了未来研究的重要方向。最后,我们讨论了多模态预训练技术在伦理与社会层面带来的潜在影响。