15 天前
IMRAM:用于跨模态图像-文本检索的迭代匹配与循环注意力记忆
Hui Chen, Guiguang Ding, Xudong Liu, Zijia Lin, Ji Liu, Jungong Han

摘要
实现图像与文本之间的双向检索对于理解视觉与语言之间的对应关系具有重要意义。现有方法通常利用注意力机制以细粒度的方式探索这种对应关系,但大多数方法将所有语义视为同等重要,从而进行均匀对齐,而忽视了语义本身的复杂性差异。事实上,语义具有多样性(即涉及多种不同的语义概念),人类在语言表达中通常遵循一种潜在的结构来组合这些语义单元,使其形成可理解的语义整体。现有方法难以最优地捕捉这种复杂的对应关系。为此,本文提出一种迭代匹配与循环注意力记忆机制(Iterative Matching with Recurrent Attention Memory, IMRAM),通过多阶段对齐过程来捕捉图像与文本之间的对应关系。具体而言,我们设计了一种迭代匹配机制,逐步探索细粒度的语义对应;同时引入记忆蒸馏单元,将早期阶段的对齐知识提炼并传递至后续阶段,以增强整体对齐能力。在Flickr8K、Flickr30K和MS COCO三个基准数据集上的实验结果表明,所提IMRAM方法达到了当前最优性能,充分验证了其有效性。此外,在一个实际业务广告数据集(命名为\Ads{})上的实验进一步证明了该方法在真实应用场景中的适用性与实用性。