
摘要
在语义相似图像之间建立密集对应关系是一项具有挑战性的任务。由于类别内部差异较大以及背景干扰严重,现有方法普遍存在两个问题:其一,源图像中的多个像素被映射到目标图像的同一个像素上,即出现“多对一”匹配;其二,部分物体像素被错误地匹配到背景像素,即发生“背景误匹配”。针对第一个问题,本文提出基于全局特征匹配的方法,通过最大化图像间的总体匹配相关性,获得全局最优的匹配矩阵。通过对匹配矩阵施加行和列之和的约束,促使解的分布更加均衡,从而有效抑制“多对一”匹配现象。针对第二个问题,本文在类别激活图(class activation maps)上引入阶梯函数,将像素的重要性重新加权为四个等级,从前景到背景逐级递减。最终,将上述过程统一整合进一个最优传输(optimal transport)框架中:通过将最大化问题转化为最优传输形式,并将阶梯权重作为经验分布引入最优传输算法,实现对匹配过程的精确调控。所提出的算法在四个基准数据集上均取得了当前最优的性能表现,尤其在大规模SPair-71k数据集上实现了26%的相对性能提升。