2 个月前
基于文本反馈的多粒度不确定性正则化复合图像检索
Chen, Yiyang ; Zheng, Zhedong ; Ji, Wei ; Qu, Leigang ; Chua, Tat-Seng

摘要
我们研究了带有文本反馈的组合图像检索。用户通过从粗略到细粒度的反馈逐步寻找感兴趣的目標。然而,現有方法主要集中在后者,即細粒度搜索,通过在训练过程中利用正负样本对来实现这一目标。这种基于样本对的范式仅考虑特定点对之间的一对一距离,这与一对多的粗略检索过程不一致,并且降低了召回率。为了填补这一空白,我们引入了一种统一的学习方法,通过考虑多粒度不确定性同时建模粗略和细粒度检索。所提出方法的核心思想是将细粒度和粗粒度检索分别视为匹配特征空间中波动较小和波动较大的数据点。具体来说,我们的方法包含两个模块:不确定性建模和不确定性正则化。(1)不确定性建模通过在特征空间中引入相同分布的波动来模拟多粒度查询。(2)基于不确定性建模,我们进一步引入不确定性正则化,根据波动范围调整匹配目标。与现有方法相比,所提出的策略明确防止模型在早期阶段排除潜在候选对象,从而提高了召回率。在三个公开数据集上(即FashionIQ、Fashion200k和Shoes),所提出的方法分别比一个强大的基线模型在Recall@50准确性上提高了4.03%、3.38%和2.40%。