2 个月前
句子级提示有助于组合图像检索
Bai, Yang ; Xu, Xinxing ; Liu, Yong ; Khan, Salman ; Khan, Fahad ; Zuo, Wangmeng ; Goh, Rick Siow Mong ; Feng, Chun-Mei

摘要
组合图像检索(CIR)是指通过使用包含参考图像和相对描述的查询来检索特定图像的任务。现有的大多数CIR模型采用后期融合策略来结合视觉特征和语言特征。此外,还有一些方法建议从参考图像生成伪词标记,进一步将其整合到相对描述中以实现CIR。然而,当目标图像对参考图像进行复杂变化时,例如物体移除和属性修改,这些基于伪词的提示方法存在局限性。在本研究中,我们证明了为相对描述学习一个合适的句子级提示(SPRC)足以实现有效的组合图像检索。我们提出利用预训练的视觉-语言(V-L)模型,如BLIP-2,生成句子级提示。通过将学习到的句子级提示与相对描述连接起来,可以方便地使用现有的基于文本的图像检索模型来提升CIR性能。此外,我们引入了图像-文本对比损失和文本提示对齐损失,以强化适合句子级提示的学习。实验结果表明,我们的方法在Fashion-IQ和CIRR数据集上优于现有的最先进的CIR方法。源代码和预训练模型已公开发布在 https://github.com/chunmeifeng/SPRC。