2 个月前

预训练如同推理:掩码调优改进零样本组合图像检索

Junyang Chen; Hanjiang Lai
预训练如同推理:掩码调优改进零样本组合图像检索
摘要

零样本组合图像检索(ZS-CIR)在数据挖掘领域中越来越受到关注,该方法通过一个文本修改和一个参考图像作为查询来检索目标图像,而无需三元组标签。目前的 ZS-CIR 研究主要依赖于预训练视觉-语言模型(如 CLIP)的泛化能力。然而,预训练视觉-语言模型与 CIR 任务之间存在显著差异,前者侧重于学习相似性,而后者则旨在通过文本指导学习图像的修改。本文介绍了一种新颖的无标签预训练掩码调优方法,该方法缩小了预训练视觉-语言模型与下游 CIR 任务之间的差距。首先,为了减少这种差距,我们将视觉-语言模型的对比学习重新表述为 CIR 任务,其中我们随机遮蔽输入图像块以从图像-文本对生成 $\langle$ 遮蔽图像, 文本, 图像 $\rangle$ 三元组。然后,我们提出了一种简单但新颖的预训练掩码调优方法,该方法利用文本和遮蔽图像来学习原始图像的修改。通过这种简洁的设计,所提出的掩码调优方法能够更好地捕捉细粒度的文本引导修改。广泛的实验结果表明,我们的方法在四个 ZS-CIR 数据集(包括 FashionIQ、CIRR、CIRCO 和 GeneCIS)上显著优于基线模型。我们的代码可在 https://github.com/Chen-Junyang-cn/PLI 获取。