17 天前

基于Token的图像检索表示学习

Hui Wu, Min Wang, Wengang Zhou, Yang Hu, Houqiang Li
基于Token的图像检索表示学习
摘要

在图像检索任务中,通过数据驱动方式学习得到的深度局部特征已被证明能有效提升检索性能。为实现在大规模图像数据库上的高效检索,现有方法通常采用大码本对深度局部特征进行量化,并利用聚合匹配核进行图像匹配。然而,这类方法的计算复杂度较高,且内存开销显著,限制了其在特征学习与特征聚合过程中实现联合优化的能力。为在保持局部区域匹配能力的同时生成紧凑的全局表示,本文提出一种统一框架,用于联合学习局部特征表示与特征聚合过程。在该框架中,首先利用卷积神经网络(CNN)提取深度局部特征;随后设计一个分词器(tokenizer)模块,将局部特征聚合为少量视觉令牌(visual tokens),每个令牌对应一种特定的视觉模式,从而有效抑制背景噪声,并突出图像中更具判别性的区域。接着,引入一个细化模块,通过自注意力(self-attention)与交叉注意力(cross-attention)机制进一步增强视觉令牌的表达能力。最终,将不同视觉令牌进行拼接,生成紧凑的全局图像表示。整个框架采用图像级别的标签进行端到端训练。大量实验结果表明,所提方法在Revisited Oxford和Paris数据集上均优于当前最先进的检索方法。