
摘要
基于卷积神经网络(CNNs)激活的图像描述符由于其区分能力、表示紧凑性和搜索效率,在图像检索中占据了主导地位。无论是从头开始训练CNNs还是进行微调,都需要大量的标注数据,而高质量的标注通常至关重要。在本研究中,我们提出了一种完全自动化的方法,利用大量无序图像对CNNs进行微调以实现图像检索。通过最先进的检索和运动结构方法重建的3D模型指导了训练数据的选择。我们证明了通过利用3D模型中的几何信息和相机位置选择出的难正例和难负例可以提升特定对象检索的性能。从同一训练数据中鉴别性学习得到的CNN描述符白化优于常用的主成分分析(PCA)白化方法。我们提出了一种新的可训练广义均值(Generalized-Mean, GeM)池化层,该层泛化了最大池化和平均池化,并展示了它能显著提高检索性能。将所提出的方法应用于VGG网络,在牛津建筑、巴黎和假日数据集等标准基准上实现了当前最佳的性能。