
摘要
卷积神经网络(Convolutional Neural Networks, Convnets)通过大规模标注数据集训练,显著提升了图像分类和目标检测领域的最新技术水平。然而,视觉理解需要在比对象类别更精细的层面上建立对应关系。鉴于卷积神经网络具有较大的池化区域并且从整幅图像标签进行训练,目前尚不清楚它们的成功是否源于一种可以用于精确定位的准确对应模型。本文研究了卷积神经网络激活特征在需要对应关系的任务中的有效性。我们提供了证据表明,卷积神经网络特征的定位精度远高于其感受野大小,这些特征可以像传统手工设计的特征一样用于类内对齐,并且在PASCAL VOC 2011数据集的对象关键点预测任务中优于传统特征。