17 天前

一种用于视觉场景识别的分层双模型：环境特异与位置特异效用

Nikhil Varma Keetha, Michael Milford, Sourav Garg

摘要

视觉场景识别（Visual Place Recognition, VPR）方法通常通过识别在特定场景中具有高“实用性”的视觉线索、图像区域或地标来实现场景匹配。然而，“实用性”这一概念并非单一，而是具有多种表现形式。本文提出一种新方法，用于推断VPR中两种关键类型的实用性：一是对特定环境具有实用性的视觉线索，二是对特定地点具有实用性的视觉线索。我们采用对比学习（contrastive learning）原则，以无监督方式估计向量局部聚合描述符（Vector of Locally Aggregated Descriptors, VLAD）聚类在环境层面与地点层面的实用性，进而通过关键点选择指导局部特征匹配。通过融合这两种实用性度量，我们的方法在三个具有挑战性的基准数据集上取得了当前最优的性能表现，同时显著降低了存储开销与计算时间。进一步的分析表明，无监督的聚类选择能够产生语义上合理的结果；相较于高层次的语义分类（如“建筑”、“道路”），更细粒度的类别划分通常对VPR具有更高的实用性；此外，我们还刻画了这两种实用性度量在不同场景与环境中的变化规律。项目源代码已公开发布于：https://github.com/Nik-V9/HEAPUtil。