3 个月前

PeCo：用于视觉Transformer的BERT预训练的感知码本

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu, Baining Guo

查看论文详情

摘要

本文探讨了视觉Transformer模型BERT预训练中更优的预测目标。我们观察到，当前的预测目标与人类感知判断存在矛盾。这一矛盾促使我们探索一种基于感知的预测目标。我们认为，在预测目标空间中，感知上相似的图像应保持彼此接近。令人意外的是，我们发现一个简单而有效的方法：在变分自编码器（dVAE）训练过程中引入感知相似性约束。此外，我们采用自监督的Transformer模型进行深层特征提取，并证明其在计算感知相似性方面表现优异。实验表明，所学习得到的视觉token确实具备更丰富的语义含义，能够显著提升预训练模型在各类下游任务中的迁移性能。例如，在使用ViT-B作为主干网络的情况下，我们在ImageNet-1K数据集上取得了84.5%的Top-1准确率，相较于具有竞争力的BEiT方法，在相同预训练轮次下提升了+1.3%。我们的方法在COCO数据集上的目标检测与分割任务，以及ADE20K数据集上的语义分割任务中均取得了显著提升。当采用更大规模的主干网络ViT-H时，我们在仅使用ImageNet-1K数据的条件下，达到了88.3%的ImageNet准确率，刷新了当前仅依赖ImageNet-1K数据的最优性能记录。