HyperAIHyperAI

Command Palette

Search for a command to run...

基于上下文化目标表示的高效自监督学习在视觉、语音和语言中的应用

Alexei Baevski Arun Babu Wei-Ning Hsu Michael Auli

摘要

当前的自监督学习算法通常具有模态特定性,且需要消耗大量计算资源。为解决这些问题,本文提升了data2vec这一跨模态通用学习目标的训练效率。我们不再对掩码标记进行编码,采用快速卷积解码器,并通过摊销方式减少构建教师模型表示的计算开销。data2vec 2.0充分利用了原始data2vec中引入的丰富上下文化目标表示,从而实现高效的自监督学习。在ImageNet-1K图像分类任务上的实验表明,data2vec 2.0仅需16.4倍更短的预训练时间即可达到与掩码自编码器(Masked Autoencoders)相当的准确率;在Librispeech语音识别任务上,其性能与wav2vec 2.0相当,但预训练时间缩短至后者的10.6分之一;在GLUE自然语言理解任务上,data2vec 2.0在训练时间减半的情况下,即可达到重新训练的RoBERTa模型的性能水平。若在速度与精度之间进行权衡,使用ViT-L模型训练150个周期时,data2vec 2.0在ImageNet-1K上可实现86.8%的Top-1准确率。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供