17 天前

MERLOT Reserve：通过视觉、语言与声音获取神经脚本知识

Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi

查看论文详情

摘要

作为人类，我们生活在一个多模态的世界中，通过所有感官的协同作用构建对世界的整体认知。我们提出了MERLOT Reserve模型，该模型通过一种新颖的训练目标，联合建模视频在时间维度上的多模态信息，学习来自音频、字幕和视频帧的联合表示。给定一段视频，我们用MASK标记替换其中的部分文本和音频片段，模型则通过预测被掩码内容的正确形式来学习。该训练目标相较于现有方法具有更快的收敛速度，并在大规模数据上表现优异：我们在2000万条YouTube视频上进行了预训练。实证结果表明，MERLOT Reserve能够学习到强大的多模态表征。在微调后，该模型在视觉常识推理（Visual Commonsense Reasoning, VCR）、TVQA和Kinetics-600三个基准任务上均达到当前最优性能，分别超越先前最优方法5%、7%和1.5%。消融实验进一步表明，音频预训练对这些任务具有显著提升作用——即使在以图像为核心的VCR任务（无音频输入）中，音频预训练仍带来明显收益。此外，该模型的训练目标支持开箱即用的预测能力，展现出强大的多模态常识理解能力。在完全零样本（zero-shot）设置下，该模型在四项视频任务上取得了具有竞争力的表现，甚至在近期提出的场景化推理（Situated Reasoning, STAR）基准上超越了部分有监督方法。我们进一步分析了音频为何能促进视觉-语言表征的提升，揭示了未来研究的重要方向。最后，我们讨论了多模态预训练技术在伦理与社会层面带来的潜在影响。