
摘要
本文研究了图像-文本匹配的问题。通过推断物体或其他显著元素(如雪、天空、草坪)与句子中相应词汇之间的潜在语义对齐关系,可以捕捉视觉与语言之间的细粒度互动,使图像-文本匹配更具可解释性。以往的研究要么简单地聚合所有可能的区域-词汇对的相似性,而没有区分重要和次要的词汇或区域;要么采用多步骤注意力机制来捕捉有限数量的语义对齐关系,但这种方法的可解释性较差。在本文中,我们提出了堆叠交叉注意力(Stacked Cross Attention)方法,利用图像区域和句子中的词汇作为上下文,发现完整的潜在对齐关系并推断图像-文本相似度。我们的方法在MS-COCO和Flickr30K数据集上取得了最先进的结果。在Flickr30K数据集中,我们的方法在基于图像查询的文本检索任务上相对优于当前最佳方法22.1%,在基于文本查询的图像检索任务上相对优于当前最佳方法18.2%(均基于Recall@1指标)。在MS-COCO数据集中,我们的方法相对提高了句子检索性能17.8%和图像检索性能16.6%(均基于5K测试集上的Recall@1指标)。代码已公开发布于:https://github.com/kuanghuei/SCAN。