17 天前

自监督细粒度对比学习中的定位探索

Di Wu, Siyuan Li, Zelin Zang, Stan Z. Li
自监督细粒度对比学习中的定位探索
摘要

自监督对比学习在视觉表征学习方面展现出巨大潜力。尽管其在图像分类、目标检测等下游任务中已取得显著成果,但针对细粒度场景的自监督预训练仍尚未得到充分探索。我们指出,当前的对比学习方法容易对背景或前景的纹理特征产生记忆,从而在定位前景物体方面存在局限性。分析表明,在细粒度自监督预训练中,提取具有判别性的纹理信息与实现精准定位同样至关重要。基于上述发现,我们提出一种名为跨视图显著性对齐(Cross-View Saliency Alignment, CVSA)的对比学习框架:该框架首先通过裁剪并交换图像的显著性区域来生成新颖的视图,随后利用跨视图对齐损失引导模型聚焦于前景物体。在小规模与大规模细粒度分类基准上的大量实验表明,CVSA显著提升了所学表征的质量。