HyperAIHyperAI

Command Palette

Search for a command to run...

MixVPR:用于视觉位置识别的特征混合

Amar Ali-bey Brahim Chaib-draa Philippe Giguère

摘要

视觉位置识别(Visual Place Recognition, VPR)是移动机器人、自动驾驶以及其他计算机视觉任务中的关键组成部分。它指的是仅通过计算机视觉手段,从查询图像中识别出其所描绘的地理位置。在大规模场景下,重复性结构、天气变化以及光照差异等因素带来了严峻挑战,因为场景外观可能随时间发生显著变化。与此同时,高效的VPR技术还需在实际应用中具备实用性,尤其在对延迟敏感的场景中表现良好。为应对上述挑战,我们提出了一种全新的整体特征聚合方法——MixVPR。该方法将预训练主干网络输出的特征图视为一组全局特征,并通过级联式的特征混合机制,显式建模每张特征图内部元素之间的全局关系,从而无需像NetVLAD或TransVPR那样依赖局部或分层聚合结构。我们通过在多个大规模基准数据集上的大量实验,充分验证了该方法的有效性。结果表明,MixVPR在性能上显著优于现有所有技术,同时参数量不足CosPlace和NetVLAD的一半。在Pitts250k-test数据集上,我们取得了94.6%的Recall@1新纪录;在MapillarySLS上达到88.0%;尤其在更具挑战性的Nordland数据集上,实现了58.4%的Recall@1,显著超越以往方法。更重要的是,我们的方法在性能上全面超越了两阶段检索技术(如Patch-NetVLAD、TransVPR和SuperGLUE),且推理速度高出数个数量级。相关代码与训练好的模型已开源,可通过以下链接获取:https://github.com/amaralibey/MixVPR


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供