2 个月前
iSEARLE: 改进零样本组合图像检索的文本反转技术
Agnolucci, Lorenzo ; Baldrati, Alberto ; Bertini, Marco ; Del Bimbo, Alberto

摘要
给定一个包含参考图像和相对描述的查询,组合图像检索(CIR)旨在检索出在视觉上与参考图像相似且结合了相对描述中指定更改的目标图像。监督方法对人工标注数据集的依赖限制了其广泛应用。本文引入了一项新任务——零样本CIR(ZS-CIR),该任务无需标注训练数据即可解决CIR问题。我们提出了一种名为iSEARLE(改进的零样本组合图像检索与文本反转(improved zero-Shot composEd imAge Retrieval with textuaL invErsion))的方法,该方法涉及将参考图像的视觉信息映射到CLIP词嵌入空间中的伪词标记,并将其与相对描述相结合。为了促进ZS-CIR的研究,我们发布了一个开放领域的基准数据集,命名为CIRCO(上下文中常见物体的组合图像检索(Composed Image Retrieval on Common Objects in context)),这是第一个每个查询都带有多个真实标签和语义分类的CIR数据集。实验结果表明,iSEARLE在三个不同的CIR数据集——FashionIQ、CIRR和提出的CIRCO——以及两个额外的评估设置,即领域转换和对象组合中取得了最先进的性能。该数据集、代码和模型已在https://github.com/miccunifi/SEARLE 公开提供。