重新访问任何地点:基于图像片段检索的视觉位置识别

准确识别曾经访问过的地方对于具身代理(embodied agents)进行定位和导航至关重要。这需要视觉表示在相机视角和场景外观存在显著变化的情况下仍然具有区分性。现有的视觉地方识别管道对“整体”图像进行编码并搜索匹配项。然而,这种方法在匹配从不同相机视角拍摄的同一地点的两张图像时面临根本性的挑战:“重叠部分的相似性可能被非重叠部分的差异性所主导”。为了解决这一问题,我们提出对“图像片段”而不是整张图像进行编码和搜索。我们建议使用开放集图像分割将图像分解为“有意义”的实体(即物体和背景)。这使我们能够创建一种新的图像表示方法,即将片段与其相邻片段连接形成的多个重叠子图集合,称为SuperSegment。此外,为了高效地将这些SuperSegments编码为紧凑的向量表示,我们提出了一种新颖的特征聚合因子化表示方法。我们展示了检索这些局部表示可以显著提高识别召回率,优于传统的基于整张图像的检索方法。我们的基于片段的方法,称为SegVLAD,在多种基准数据集上实现了地方识别的新水平,并且适用于通用和任务专用的图像编码器。最后,通过在一个对象实例检索任务上评估我们的方法,我们展示了该方法在“重新访问任何事物”方面的潜力,从而通过共同的目标——识别特定地点的目标对象——将视觉地方识别和目标导向导航这两个不同的研究领域联系起来。源代码:https://github.com/AnyLoc/Revisit-Anything。注释:- “具身代理”(embodied agents)是指具备物理形态并在环境中执行任务的人工智能系统。- “开放集图像分割”(open-set image segmentation)是一种能够处理未见过类别对象的图像分割技术。- “特征聚合因子化表示”(factorized representation of feature aggregation)是一种将特征聚合过程分解以提高效率的方法。