17 天前
VATT:用于从原始视频、音频和文本中进行多模态自监督学习的Transformer
Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, Boqing Gong

摘要
我们提出了一种基于无标签数据学习多模态表示的框架,采用无需卷积的Transformer架构。具体而言,我们的视频-音频-文本Transformer(Video-Audio-Text Transformer, VATT)以原始信号作为输入,提取出足够丰富的多模态表示,可有效支持多种下游任务。我们通过多模态对比损失,从零开始端到端训练VATT,并在视频动作识别、音频事件分类、图像分类以及文本到视频检索等下游任务上评估其性能。此外,我们还研究了一种模态无关的单骨干Transformer结构,通过在三种模态之间共享参数来实现模型统一。实验结果表明,无需卷积的VATT在各项下游任务中均优于当前最先进的基于卷积神经网络(ConvNet)的架构。特别地,VATT的视觉Transformer在Kinetics-400上取得了82.1%的Top-1准确率,在Kinetics-600上达到83.6%,在Kinetics-700上达到72.7%,在Moments in Time上达到41.1%,均创下新纪录,且无需任何监督预训练。在图像分类任务中,VATT迁移至ImageNet后获得78.7%的Top-1准确率,显著高于仅从零训练相同Transformer所获得的64.7%,充分体现了模型在存在领域差异(视频与图像)下的强大泛化能力。此外,VATT的音频Transformer在基于波形的音频事件识别任务中,于AudioSet数据集上实现了39.4%的mAP,同样创下新纪录,且未依赖任何监督预训练。VATT的源代码已公开发布。