2 个月前

NetVLAD:用于弱监督场所识别的CNN架构

Relja Arandjelović; Petr Gronat; Akihiko Torii; Tomas Pajdla; Josef Sivic
NetVLAD:用于弱监督场所识别的CNN架构
摘要

我们致力于解决大规模视觉地点识别问题,该任务的目标是快速且准确地识别给定查询照片的位置。本文提出了以下三项主要贡献。首先,我们开发了一种卷积神经网络(CNN)架构,该架构可以直接针对地点识别任务进行端到端训练。该架构的主要组成部分是NetVLAD,这是一种新的广义VLAD层,灵感来源于图像检索中常用的“局部聚合描述符向量”(Vector of Locally Aggregated Descriptors, VLAD)图像表示方法。该层可以轻松插入任何CNN架构,并且适合通过反向传播进行训练。其次,我们提出了一种基于新的弱监督排序损失的训练方法,可以从Google街景时光机下载的同一地点随时间变化的图像中以端到端的方式学习架构参数。最后,我们展示了所提出的架构在两个具有挑战性的地点识别基准测试中显著优于非学习型图像表示和现成的CNN描述符,并在标准图像检索基准测试中改进了当前最先进的紧凑型图像表示方法。