17 天前

MixVPR:用于视觉位置识别的特征混合

Amar Ali-bey, Brahim Chaib-draa, Philippe Giguère
MixVPR:用于视觉位置识别的特征混合
摘要

视觉位置识别(Visual Place Recognition, VPR)是移动机器人、自动驾驶以及其他计算机视觉任务中的关键组成部分。它指的是仅通过计算机视觉手段,从查询图像中识别出其所描绘的地理位置。在大规模场景下,重复性结构、天气变化以及光照差异等因素带来了严峻挑战,因为场景外观可能随时间发生显著变化。与此同时,高效的VPR技术还需在实际应用中具备实用性,尤其在对延迟敏感的场景中表现良好。为应对上述挑战,我们提出了一种全新的整体特征聚合方法——MixVPR。该方法将预训练主干网络输出的特征图视为一组全局特征,并通过级联式的特征混合机制,显式建模每张特征图内部元素之间的全局关系,从而无需像NetVLAD或TransVPR那样依赖局部或分层聚合结构。我们通过在多个大规模基准数据集上的大量实验,充分验证了该方法的有效性。结果表明,MixVPR在性能上显著优于现有所有技术,同时参数量不足CosPlace和NetVLAD的一半。在Pitts250k-test数据集上,我们取得了94.6%的Recall@1新纪录;在MapillarySLS上达到88.0%;尤其在更具挑战性的Nordland数据集上,实现了58.4%的Recall@1,显著超越以往方法。更重要的是,我们的方法在性能上全面超越了两阶段检索技术(如Patch-NetVLAD、TransVPR和SuperGLUE),且推理速度高出数个数量级。相关代码与训练好的模型已开源,可通过以下链接获取:https://github.com/amaralibey/MixVPR。

MixVPR:用于视觉位置识别的特征混合 | 最新论文 | HyperAI超神经