7 个月前

卷积神经网络

计算机视觉

Relja Arandjelović; Petr Gronat; Akihiko Torii; Tomas Pajdla; Josef Sivic

摘要

我们致力于解决大规模视觉地点识别问题，该任务的目标是快速且准确地识别给定查询照片的位置。本文提出了以下三项主要贡献。首先，我们开发了一种卷积神经网络（CNN）架构，该架构可以直接针对地点识别任务进行端到端训练。该架构的主要组成部分是NetVLAD，这是一种新的广义VLAD层，灵感来源于图像检索中常用的“局部聚合描述符向量”（Vector of Locally Aggregated Descriptors, VLAD）图像表示方法。该层可以轻松插入任何CNN架构，并且适合通过反向传播进行训练。其次，我们提出了一种基于新的弱监督排序损失的训练方法，可以从Google街景时光机下载的同一地点随时间变化的图像中以端到端的方式学习架构参数。最后，我们展示了所提出的架构在两个具有挑战性的地点识别基准测试中显著优于非学习型图像表示和现成的CNN描述符，并在标准图像检索基准测试中改进了当前最先进的紧凑型图像表示方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Relja Arandjelović; Petr Gronat; Akihiko Torii; Tomas Pajdla; Josef Sivic

摘要

我们致力于解决大规模视觉地点识别问题，该任务的目标是快速且准确地识别给定查询照片的位置。本文提出了以下三项主要贡献。首先，我们开发了一种卷积神经网络（CNN）架构，该架构可以直接针对地点识别任务进行端到端训练。该架构的主要组成部分是NetVLAD，这是一种新的广义VLAD层，灵感来源于图像检索中常用的“局部聚合描述符向量”（Vector of Locally Aggregated Descriptors, VLAD）图像表示方法。该层可以轻松插入任何CNN架构，并且适合通过反向传播进行训练。其次，我们提出了一种基于新的弱监督排序损失的训练方法，可以从Google街景时光机下载的同一地点随时间变化的图像中以端到端的方式学习架构参数。最后，我们展示了所提出的架构在两个具有挑战性的地点识别基准测试中显著优于非学习型图像表示和现成的CNN描述符，并在标准图像检索基准测试中改进了当前最先进的紧凑型图像表示方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供