Command Palette
Search for a command to run...
基于上下文化目标表示的高效自监督学习在视觉、语音和语言中的应用
基于上下文化目标表示的高效自监督学习在视觉、语音和语言中的应用
Alexei Baevski Arun Babu Wei-Ning Hsu Michael Auli
摘要
当前的自监督学习算法通常具有模态特定性,且需要消耗大量计算资源。为解决这些问题,本文提升了data2vec这一跨模态通用学习目标的训练效率。我们不再对掩码标记进行编码,采用快速卷积解码器,并通过摊销方式减少构建教师模型表示的计算开销。data2vec 2.0充分利用了原始data2vec中引入的丰富上下文化目标表示,从而实现高效的自监督学习。在ImageNet-1K图像分类任务上的实验表明,data2vec 2.0仅需16.4倍更短的预训练时间即可达到与掩码自编码器(Masked Autoencoders)相当的准确率;在Librispeech语音识别任务上,其性能与wav2vec 2.0相当,但预训练时间缩短至后者的10.6分之一;在GLUE自然语言理解任务上,data2vec 2.0在训练时间减半的情况下,即可达到重新训练的RoBERTa模型的性能水平。若在速度与精度之间进行权衡,使用ViT-L模型训练150个周期时,data2vec 2.0在ImageNet-1K上可实现86.8%的Top-1准确率。