3 个月前

PeCo:用于视觉Transformer的BERT预训练的感知码本

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu, Baining Guo
PeCo:用于视觉Transformer的BERT预训练的感知码本
摘要

本文探讨了视觉Transformer模型BERT预训练中更优的预测目标。我们观察到,当前的预测目标与人类感知判断存在矛盾。这一矛盾促使我们探索一种基于感知的预测目标。我们认为,在预测目标空间中,感知上相似的图像应保持彼此接近。令人意外的是,我们发现一个简单而有效的方法:在变分自编码器(dVAE)训练过程中引入感知相似性约束。此外,我们采用自监督的Transformer模型进行深层特征提取,并证明其在计算感知相似性方面表现优异。实验表明,所学习得到的视觉token确实具备更丰富的语义含义,能够显著提升预训练模型在各类下游任务中的迁移性能。例如,在使用ViT-B作为主干网络的情况下,我们在ImageNet-1K数据集上取得了84.5%的Top-1准确率,相较于具有竞争力的BEiT方法,在相同预训练轮次下提升了+1.3%。我们的方法在COCO数据集上的目标检测与分割任务,以及ADE20K数据集上的语义分割任务中均取得了显著提升。当采用更大规模的主干网络ViT-H时,我们在仅使用ImageNet-1K数据的条件下,达到了88.3%的ImageNet准确率,刷新了当前仅依赖ImageNet-1K数据的最优性能记录。