
摘要
我们提出了动量对比(Momentum Contrast, MoCo)方法,用于无监督视觉表征学习。从对比学习作为字典查询的视角出发,我们构建了一个动态字典,该字典由一个队列和一个动量更新的编码器组成。这一设计使得系统能够实时构建一个规模庞大且一致的字典,从而有效支持对比式的无监督学习。在ImageNet分类任务中,MoCo采用常见的线性评估协议,取得了具有竞争力的性能表现。更重要的是,MoCo所学习到的表征在下游任务中具有良好的迁移能力。在PASCAL VOC、COCO及其他数据集上的7项检测与分割任务中,MoCo的表现优于其监督预训练的对应方法,有时甚至显著超越。这一结果表明,在众多视觉任务中,无监督与监督表征学习之间的差距已基本弥合。