1 个月前
VideoBERT:视频和语言表示学习的联合模型
Chen Sun; Austin Myers; Carl Vondrick; Kevin Murphy; Cordelia Schmid

摘要
自监督学习在利用像YouTube这样的平台上大量未标记数据方面变得越来越重要。尽管现有的大多数方法主要学习低级表示,我们提出了一种联合视觉-语言模型,以无需显式监督的方式学习高级特征。特别是,受到其在语言建模中近期成功应用的启发,我们基于BERT模型来学习视觉和语言标记序列上的双向联合分布,这些标记分别来自视频数据的向量量化和现成的语音识别输出。我们在多个任务中使用VideoBERT,包括动作分类和视频字幕生成。我们展示了该模型可以直接应用于开放词汇分类,并证实了大量训练数据和跨模态信息对于性能至关重要。此外,我们在视频字幕生成任务上超越了现有最佳方法,定量结果验证了该模型确实学会了高级语义特征。