
摘要
在视觉位置识别中,准确识别和匹配不同环境条件和视角下的位置图像仍然是一个重大挑战。本文介绍了一种新的技术,称为查询包(Bag-of-Queries, BoQ),该技术学习一组全局查询,旨在捕捉普遍的位置特定属性。与现有方法通过自注意力机制直接从输入特征生成查询不同,BoQ 使用独立可学习的全局查询,通过交叉注意力机制对输入特征进行探测,确保一致的信息聚合。此外,我们的技术提供了一个可解释的注意力机制,并且可以与卷积神经网络(CNN)和视觉变换器(Vision Transformer)主干网络集成。BoQ 的性能通过在14个大规模基准数据集上的广泛实验得到了验证。它始终优于当前最先进的技术,包括 NetVLAD、MixVPR 和 EigenPlaces。此外,作为全局检索技术(单阶段),BoQ 在速度和效率上比两阶段检索方法(如 Patch-NetVLAD、TransVPR 和 R2Former)高出几个数量级。代码和模型权重已公开发布在 https://github.com/amaralibey/Bag-of-Queries。