2 个月前
基于Transformer的特征和成本聚合方法在密集对应中的应用
Hong, Sunghwan ; Cho, Seokju ; Kim, Seungryong ; Lin, Stephen

摘要
我们提出了一种用于密集对应的新架构。目前最先进的方法主要是基于Transformer的,这些方法要么专注于特征描述符,要么专注于代价体聚合。然而,它们通常只聚合其中一种信息,而没有同时聚合两种信息,尽管联合聚合可以通过提供一方所缺乏的信息(如图像的结构或语义信息,或像素级匹配相似度)来相互增强。在本工作中,我们设计了一种基于Transformer的新型网络,该网络以交错的方式融合了这两种形式的聚合,从而充分利用它们之间的互补信息。具体而言,我们设计了一个自注意力层,该层利用描述符来消除噪声代价体中的歧义,并且还利用代价体以促进精确匹配的方式聚合特征。随后的交叉注意力层则在两个图像的描述符条件基础上进行进一步聚合,并受到前一层聚合输出的辅助。此外,我们通过分层处理进一步提升了性能,在这种处理中,较粗层次的聚合指导较细层次的聚合。我们在密集匹配任务上评估了所提方法的有效性,并在所有主要基准测试中达到了最先进水平。我们还进行了广泛的消融研究,以验证我们的设计选择。