
摘要
我们探讨了将简单的、非层次化的视觉变换器(Vision Transformer, ViT)作为目标检测的主干网络。这种设计使得原始的ViT架构能够在无需重新设计用于预训练的层次化主干网络的情况下,进行目标检测的微调。通过最小的适应性调整,我们的基于简单主干网络的检测器能够取得具有竞争力的结果。令人惊讶的是,我们观察到:(i) 仅从单尺度特征图构建一个简单的特征金字塔(无需常见的FPN设计)就足够了;(ii) 使用窗口注意力机制(无需移位),并辅以极少数跨窗口传播块也足够了。利用作为掩码自编码器(Masked Autoencoders, MAE)预训练的简单ViT主干网络,我们的检测器命名为ViTDet,可以与之前所有基于层次化主干网络的方法相竞争,在仅使用ImageNet-1K预训练的情况下,在COCO数据集上达到了最高61.3 AP_box的成绩。我们希望本研究能够引起对基于简单主干网络检测器研究的关注。ViTDet的代码已在Detectron2中提供。