6 个月前

摘要

视觉场景识别（Visual Place Recognition, VPR）的任务旨在仅依赖视觉线索，将查询图像与来自不同地理位置的大型图像数据库中的参考图像进行匹配。当前最先进的方法通常聚焦于从深度主干网络中提取的特征的聚合，以生成每张图像的全局描述符。在此背景下，我们提出 SALAD（Sinkhorn Algorithm for Locally Aggregated Descriptors），该方法将 NetVLAD 中局部特征到聚类的软分配过程重新建模为一个最优传输（optimal transport）问题。在 SALAD 中，我们同时建模特征到聚类以及聚类到特征之间的双向关系，并引入一个“垃圾箱”（dustbin）聚类，用于有选择性地剔除被认为缺乏信息量的特征，从而提升整体描述符的质量。此外，我们采用并微调了 DINOv2 作为主干网络，显著增强了局部特征的表达能力，同时大幅减少了模型训练所需时间。实验结果表明，我们的单阶段方法不仅在公开的 VPR 数据集上超越了现有的单阶段基线方法，更优于需要额外重排序步骤的两阶段方法，且后者通常具有更高的计算成本。相关代码与模型已开源，地址为：https://github.com/serizba/salad。

源 PDF