2 个月前

基于文本反转的零样本组合图像检索

Baldrati, Alberto ; Agnolucci, Lorenzo ; Bertini, Marco ; Del Bimbo, Alberto
基于文本反转的零样本组合图像检索
摘要

组合图像检索(Composed Image Retrieval, CIR)旨在根据由参考图像和描述两幅图像之间差异的相对字幕组成的查询来检索目标图像。现有的CIR方法依赖于监督学习,而为CIR标注数据集所需的高成本和大量工作阻碍了这些方法的广泛应用。在本研究中,我们提出了一项新任务——零样本CIR(Zero-Shot CIR, ZS-CIR),该任务的目标是在不需要标注训练数据集的情况下解决CIR问题。我们的方法命名为基于文本逆向转换的零样本组合图像检索(zero-Shot composEd imAge Retrieval with textuaL invErsion, SEARLE),该方法将参考图像的视觉特征映射到CLIP词嵌入空间中的一个伪词标记,并将其与相对字幕进行整合。为了支持ZS-CIR的研究,我们引入了一个名为“上下文中常见对象的组合图像检索”(Composed Image Retrieval on Common Objects in context, CIRCO)的开放域基准数据集,这是第一个包含每个查询多个真实标签的CIR数据集。实验结果表明,SEARLE在两个主要的CIR任务数据集FashionIQ和CIRR以及我们提出的CIRCO上表现出优于基线模型的性能。该数据集、代码和模型已在https://github.com/miccunifi/SEARLE公开发布。