HyperAIHyperAI

Command Palette

Search for a command to run...

用于表征学习的高效自监督视觉Transformer

Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao

摘要

本文研究了两种用于构建高效自监督视觉Transformer(EsViT)以实现视觉表征学习的技术。首先,通过一项全面的实证研究,我们发现采用多阶段架构并结合稀疏自注意力机制可显著降低模型复杂度,但会牺牲捕捉图像区域间细粒度对应关系的能力。其次,我们提出了一种新的预训练任务——区域匹配(region matching),使模型能够有效捕捉细粒度的区域依赖关系,从而显著提升所学视觉表征的质量。实验结果表明,将上述两种技术相结合后,EsViT在ImageNet线性探测评估中达到81.3%的Top-1准确率,相较于以往方法在性能相当的情况下实现了约一个数量级的更高吞吐量。在迁移至下游线性分类任务时,EsViT在18个数据集中的17个上超越了其监督学习对应模型。代码与模型已公开:https://github.com/microsoft/esvit


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于表征学习的高效自监督视觉Transformer | 论文 | HyperAI超神经