15 天前

图像-文本匹配中的相似性推理与过滤

Haiwen Diao, Ying Zhang, Lin Ma, Huchuan Lu
图像-文本匹配中的相似性推理与过滤
摘要

图像-文本匹配在连接视觉与语言模态方面发挥着关键作用,近年来通过利用图像与句子之间的全局对齐关系,或图像区域与词语之间的局部对齐关系,已取得显著进展。然而,如何充分挖掘这些对齐信息以推断更精确的匹配得分,仍是一个尚未充分探索的问题。为此,本文提出了一种新颖的相似性图推理与注意力过滤(Similarity Graph Reasoning and Attention Filtration, SGRAF)网络用于图像-文本匹配任务。具体而言,首先学习基于向量的相似性表示,以更全面地刻画局部与全局对齐关系;随后,引入基于图卷积神经网络的相似性图推理(Similarity Graph Reasoning, SGR)模块,通过融合局部与全局对齐信息,推断出具有上下文感知能力的相似性;进一步地,设计了相似性注意力过滤(Similarity Attention Filtration, SAF)模块,通过有选择性地关注重要且具有代表性的对齐关系,同时抑制无意义对齐带来的干扰,实现对多种对齐信息的有效整合。实验结果表明,所提方法在Flickr30K和MSCOCO两个基准数据集上均取得了当前最优的性能表现;同时,通过大量定性实验与深入分析,验证了SGR与SAF模块的良好可解释性。

图像-文本匹配中的相似性推理与过滤 | 最新论文 | HyperAI超神经