
摘要
我们提出了一种自监督视觉表征模型——BEiT(Bidirectional Encoder Representation from Image Transformers),该模型借鉴了自然语言处理领域中BERT的思路,设计了一种掩码图像建模任务,用于预训练视觉Transformer。在预训练阶段,每张图像包含两种视图:图像块(如16×16像素的局部区域)和视觉标记(即离散的视觉 token)。首先,我们将原始图像“分词”为视觉标记;随后,随机掩码部分图像块,并将这些被破坏的图像块输入主干Transformer网络。预训练的目标是基于受损的图像块恢复出原始的视觉标记。在完成BEiT的预训练后,我们仅通过在预训练编码器之上添加特定任务的层,即可直接对下游任务进行微调。在图像分类与语义分割任务上的实验结果表明,该模型在性能上与以往的预训练方法相当,甚至更优。例如,基于基础尺寸的BEiT在ImageNet-1K数据集上达到了83.2%的Top-1准确率,显著优于相同设置下从零开始训练的DeiT模型(81.8%)。此外,大型尺寸的BEiT仅使用ImageNet-1K数据进行预训练,便取得了86.3%的准确率,甚至超过了在ImageNet-22K上采用监督预训练的ViT-L模型(85.2%)。相关代码与预训练模型已开源,可访问 https://aka.ms/beit。