9 天前

基于查询库归一化的跨模态检索

Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, Samuel Albanie
基于查询库归一化的跨模态检索
摘要

得益于大规模训练数据集、神经网络架构设计的进展以及高效推理技术的发展,联合嵌入(joint embeddings)已成为解决跨模态检索问题的主流方法。本文首次揭示,尽管当前最先进的联合嵌入方法在性能上表现出色,但仍严重受到长期存在的“中心性问题”(hubness problem)的困扰——即少数几个候选集嵌入项会频繁成为大量查询项的最近邻。受自然语言处理领域相关研究的启发,我们提出了一种简单而有效的框架,称为查询库归一化(Querybank Normalisation, QB-Norm),该方法通过对查询相似度进行重归一化,以缓解嵌入空间中中心性节点带来的偏差。QB-Norm能够在不需重新训练模型的前提下显著提升检索性能。与以往工作不同,我们进一步证明,QB-Norm在无需同时访问任何测试集查询的情况下仍能有效工作。在QB-Norm框架内,我们还提出了一种新颖的相似度归一化方法——动态反向Softmax(Dynamic Inverted Softmax),其鲁棒性显著优于现有方法。我们在多种跨模态检索模型与基准测试中验证了QB-Norm的有效性,结果表明该方法能持续超越现有最先进水平,显著提升强基线模型的性能。代码已开源,详见:https://vladbogo.github.io/QB-Norm/。