摘要
大多数物体识别方法主要集中在学习判别性的视觉模式,而忽视了整体的物体结构。尽管结构建模非常重要,但通常需要大量的手动注释,因此工作量巨大。在本文中,我们提出了一种“深入物体”(Look Into Object, LIO)的方法,通过在传统框架中引入自监督机制来显式且内在地建模物体结构。我们展示了该方法可以在不增加额外注释成本和推理速度的情况下,显著增强识别主干网络的鲁棒性表示学习能力。具体而言,我们首先提出了一种物体范围学习模块,用于根据同一类别实例共享的视觉模式定位物体。然后设计了一个空间上下文学习模块,通过预测范围内的相对位置来建模物体的内部结构。这两个模块在训练过程中可以轻松嵌入任何主干网络,并在推理时分离。大量实验表明,我们的LIO方法在多个基准测试上取得了显著的性能提升,包括通用物体识别(ImageNet)和细粒度物体识别任务(CUB、Cars、Aircraft)。我们还展示了这种学习范式在其他任务如目标检测和分割(MS COCO)中的高度泛化能力。项目页面:https://github.com/JDAI-CV/LIO。