2 个月前

基于注意力机制的大规模图像检索深度局部特征

Hyeonwoo Noh; Andre Araujo; Jack Sim; Tobias Weyand; Bohyung Han
基于注意力机制的大规模图像检索深度局部特征
摘要

我们提出了一种适用于大规模图像检索的注意力局部特征描述符,称为DELF(DEep Local Feature)。该新特征描述符基于卷积神经网络,仅使用地标图像数据集上的图像级注释进行训练。为了识别对图像检索有语义价值的局部特征,我们还提出了一种用于关键点选择的注意力机制,该机制与描述符共享大部分网络层。此框架可以作为其他关键点检测器和描述符的即插即用替代方案,用于图像检索,从而实现更精确的特征匹配和几何验证。我们的系统生成可靠的置信度分数以拒绝误报——特别是对于数据库中没有正确匹配项的查询具有较强的鲁棒性。为了评估所提出的描述符,我们引入了一个新的大规模数据集,称为Google-Landmarks数据集,该数据集在数据库和查询方面均存在挑战,如背景杂乱、部分遮挡、多个地标、不同尺度的对象等。我们展示了DELF在大规模场景下显著优于最先进的全局和局部描述符。代码和数据集可以在项目网页上找到:https://github.com/tensorflow/models/tree/master/research/delf 。