2 个月前

预训练如同推理：掩码调优改进零样本组合图像检索

Junyang Chen; Hanjiang Lai

摘要

零样本组合图像检索（ZS-CIR）在数据挖掘领域中越来越受到关注，该方法通过一个文本修改和一个参考图像作为查询来检索目标图像，而无需三元组标签。目前的 ZS-CIR 研究主要依赖于预训练视觉-语言模型（如 CLIP）的泛化能力。然而，预训练视觉-语言模型与 CIR 任务之间存在显著差异，前者侧重于学习相似性，而后者则旨在通过文本指导学习图像的修改。本文介绍了一种新颖的无标签预训练掩码调优方法，该方法缩小了预训练视觉-语言模型与下游 CIR 任务之间的差距。首先，为了减少这种差距，我们将视觉-语言模型的对比学习重新表述为 CIR 任务，其中我们随机遮蔽输入图像块以从图像-文本对生成 $\langle$ 遮蔽图像, 文本, 图像 $\rangle$ 三元组。然后，我们提出了一种简单但新颖的预训练掩码调优方法，该方法利用文本和遮蔽图像来学习原始图像的修改。通过这种简洁的设计，所提出的掩码调优方法能够更好地捕捉细粒度的文本引导修改。广泛的实验结果表明，我们的方法在四个 ZS-CIR 数据集（包括 FashionIQ、CIRR、CIRCO 和 GeneCIS）上显著优于基线模型。我们的代码可在 https://github.com/Chen-Junyang-cn/PLI 获取。