2 个月前

仅语言高效的零样本组合图像检索训练

Geonmo Gu; Sanghyuk Chun; Wonjae Kim; Yoohoon Kang; Sangdoo Yun
仅语言高效的零样本组合图像检索训练
摘要

组合图像检索(CIR)任务接受由图像和文本组成的查询,旨在同时满足这两种条件搜索相关图像。传统的CIR方法需要一个包含查询图像、查询文本和目标图像三元组的训练数据集,而收集这样的数据集非常昂贵。最近的一些研究工作致力于零样本(ZS)CIR范式,以解决这一问题而不依赖预先收集的三元组。然而,现有的ZS-CIR方法由于训练过程中输入文本的多样性不足,表现出有限的骨干网络可扩展性和泛化能力。我们提出了一种新的CIR框架,仅使用语言进行训练。我们的LinCIR(仅语言训练的CIR)可以通过一种新颖的自我监督方法——自掩码投影(Self-Masking Projection, SMP)——仅使用文本数据集进行训练。我们将文本潜在嵌入投影到令牌嵌入空间,并通过替换原始文本中的关键词令牌来构建新文本。然后,我们让新文本和原始文本具有相同的潜在嵌入向量。通过这种简单的策略,LinCIR不仅效率惊人,而且效果显著;使用CLIP ViT-G骨干网络的LinCIR在48分钟内完成训练,并在四个不同的CIR基准测试中展现出最佳的零样本CIR性能,包括CIRCO、GeneCIS、FashionIQ和CIRR,甚至在FashionIQ上超过了监督方法的表现。代码可在https://github.com/navervision/lincir 获取。