6 个月前

摘要

人类手绘草图在捕捉视觉对象的空间拓扑结构以及细微外观特征方面具有独特优势。细粒度草图图像检索（Fine-Grained Sketch-Based Image Retrieval, FG-SBIR）正是充分利用草图的这一细粒度特性，实现对照片的实例级检索。然而，人类草图通常具有高度抽象和象征性，导致其与候选图像之间存在严重的空间错位，进而使得细微视觉特征的匹配变得极为困难。现有FG-SBIR方法主要依赖深度跨域表示学习进行粗粒度的整体匹配，却未能显式建模细粒度细节及其空间上下文关系。本文提出一种新型深度FG-SBIR模型，其在结构上显著区别于现有方法，主要体现在三个方面：（1）具备空间感知能力，通过引入对视觉细节空间位置敏感的注意力模块实现；（2）通过捷径连接融合模块，有效结合粗粒度与细粒度语义信息；（3）引入一种新型高阶可学习能量函数（Higher Order Learnable Energy Function, HOLEF）损失，以建模特征间的相关性，并增强模型对跨域特征提取结果之间错位问题的鲁棒性。大量实验结果表明，所提出的深度空间-语义注意力模型在性能上显著优于当前最先进的方法。

源 PDF