17 天前

少即是多：通过稀疏采样实现视频与语言学习的ClipBERT

Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu

摘要

视频与语言学习（例如视频问答）的传统方法通常采用神经网络模型，从预先离线提取的视觉模型密集视频特征和语言模型文本特征中进行学习。这些特征提取器通常独立训练，且训练任务往往与目标任务领域不同，导致所提取的固定特征在下游任务中并非最优。此外，由于密集视频特征具有极高的计算开销，直接将特征提取器集成到现有方法中以实现便捷微调往往极为困难（甚至不可行）。为解决这一困境，我们提出了一种通用框架ClipBERT，通过引入稀疏采样策略，仅在每个训练步骤中使用视频中的单个或少数几个稀疏采样的短片段，从而实现经济高效的端到端学习。在六个数据集上的文本到视频检索和视频问答任务实验表明，ClipBERT的性能优于（或至少与）利用完整视频的现有方法相当，这表明仅依赖少量稀疏采样的片段进行端到端学习，往往比使用完整视频离线提取的密集特征更为准确，有力验证了“少即是多”的原则。所用数据集中的视频涵盖显著不同的领域与长度，从3秒的通用领域GIF视频到长达180秒的YouTube人类行为视频，充分展现了本方法的泛化能力。我们还进行了全面的消融实验与深入分析，以揭示取得成功的关键因素。相关代码已公开，可访问：https://github.com/jayleicn/ClipBERT