
摘要
文本引导的图像检索旨在通过引入条件文本以更准确地捕捉用户的意图。传统方法通常聚焦于最小化源输入与目标图像之间的嵌入距离,利用给定的三元组 $\langle$源图像,源文本,目标图像$\rangle$ 进行优化。然而,这种基于三元组的优化方式可能限制了检索模型对更细粒度排序信息的建模能力,例如,三元组通常被视为一一对应关系,难以有效处理因反馈语言和图像在语义上的多样性而产生的多对多对应关系。为更好地捕捉此类排序信息,本文提出一种新颖的面向排序的不确定性建模方法,仅基于给定的三元组即可建模多对多对应关系。该方法引入不确定性学习机制,以学习特征的随机排序列表。具体而言,我们的方法主要包含三个核心组件:(1)样本内不确定性,通过结合源特征与目标特征所构建的高斯分布,捕捉语义多样性;(2)样本间不确定性,进一步挖掘来自其他样本分布中的排序信息;(3)分布正则化,用于对齐源输入与目标图像的分布表示。与现有最先进的方法相比,所提出的模型在两个公开的组合图像检索数据集上均取得了显著的性能提升。