17 天前

目标引导的组合图像检索

Haokun Wen, Xian Zhang, Xuemeng Song, Yinwei Wei, Liqiang Nie
目标引导的组合图像检索
摘要

组合图像检索(Composed Image Retrieval, CIR)是一种新兴且灵活的图像检索范式,能够根据多模态查询(包括参考图像及其对应的修改文本)检索目标图像。尽管现有方法已取得显著进展,但仍存在两个关键局限:一是未能有效建模参考图像与修改文本之间的冲突关系,从而限制了多模态查询的组合质量;二是缺乏对候选图像与查询之间不同匹配程度的自适应建模机制,影响了最终的排序效果。为解决上述问题,本文提出一种目标引导的组合图像检索网络(Target-Guided Composed Image Retrieval, TG-CIR)。具体而言,TG-CIR首先以对比语言-图像预训练模型(CLIP)作为主干网络,提取参考图像/目标图像与修改文本的统一全局与局部属性特征,并引入正交正则化项,以促进各属性特征之间的独立性。随后,TG-CIR设计了一个基于目标-查询关系引导的多模态查询组合模块,该模块包含一个无目标的“学生”组合分支和一个基于目标的“教师”组合分支。通过在教师分支中注入目标与查询之间的关系信息,指导学生分支更有效地建模参考图像与修改文本之间的冲突关系。此外,除了传统的基于批次的分类损失外,TG-CIR还额外引入一种基于批次的目标相似性引导的匹配度正则化项,以增强度量学习过程,提升模型对不同匹配程度候选图像的区分能力。在三个基准数据集上的大量实验结果表明,所提出的TG-CIR方法在组合图像检索任务中显著优于现有方法,展现出优越的性能。

目标引导的组合图像检索 | 最新论文 | HyperAI超神经