HyperAIHyperAI

Command Palette

Search for a command to run...

预训练如同推理:掩码调优改进零样本组合图像检索

Chen, Junyang

摘要

零样本组合图像检索(ZS-CIR)在数据挖掘领域中越来越受到关注,该方法通过一个文本修改和一个参考图像作为查询来检索目标图像,而无需三元组标签。目前的 ZS-CIR 研究主要依赖于预训练视觉-语言模型(如 CLIP)的泛化能力。然而,预训练视觉-语言模型与 CIR 任务之间存在显著差异,前者侧重于学习相似性,而后者则旨在通过文本指导学习图像的修改。本文介绍了一种新颖的无标签预训练掩码调优方法,该方法缩小了预训练视觉-语言模型与下游 CIR 任务之间的差距。首先,为了减少这种差距,我们将视觉-语言模型的对比学习重新表述为 CIR 任务,其中我们随机遮蔽输入图像块以从图像-文本对生成 \langle 遮蔽图像, 文本, 图像 \rangle 三元组。然后,我们提出了一种简单但新颖的预训练掩码调优方法,该方法利用文本和遮蔽图像来学习原始图像的修改。通过这种简洁的设计,所提出的掩码调优方法能够更好地捕捉细粒度的文本引导修改。广泛的实验结果表明,我们的方法在四个 ZS-CIR 数据集(包括 FashionIQ、CIRR、CIRCO 和 GeneCIS)上显著优于基线模型。我们的代码可在 https://github.com/Chen-Junyang-cn/PLI 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供