15 天前

用于校准跨模态检索的关系对齐学习

Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang
用于校准跨模态检索的关系对齐学习
摘要

尽管大规模多模态预训练方法取得了显著进展,跨模态检索(如图像-文本检索)仍是一项具有挑战性的任务。为弥合两种模态之间的语义鸿沟,以往研究主要聚焦于对象层面的词-区域对齐,却忽视了词语之间的语言关系与视觉区域之间的空间关系之间的匹配。这种关系一致性被忽略,严重影响了图像-文本对的上下文表征能力,进而制约了模型性能的提升与可解释性。本文首次提出一种新型度量指标——模内自注意力距离(Intra-modal Self-attention Distance, ISD),通过衡量语言关系与视觉关系之间的语义距离,量化二者的关系一致性。针对该度量,我们进一步提出一种正则化训练方法——模内自注意力的模间对齐(Inter-modal Alignment on Intra-modal Self-attentions, IAIS),通过模间对齐机制,实现双模态内部自注意力机制的相互校准与优化。实验结果表明,IAIS正则化方法显著提升了主流模型在Flickr30k与MS COCO数据集上的性能,充分验证了所提方法的有效性与优越性。