2 个月前
Pic2Word:将图片映射为单词以实现零样本组合图像检索
Saito, Kuniaki ; Sohn, Kihyuk ; Zhang, Xiang ; Li, Chun-Liang ; Lee, Chen-Yu ; Saenko, Kate ; Pfister, Tomas

摘要
在组合图像检索(Composed Image Retrieval, CIR)中,用户将查询图像与文本结合,以描述其预期的目标。现有的方法依赖于使用标记的三元组(包括查询图像、文本说明和目标图像)对CIR模型进行监督学习。然而,标记这些三元组的成本较高,限制了CIR的广泛应用。在这项工作中,我们提出研究一个重要的任务——零样本组合图像检索(Zero-Shot Composed Image Retrieval, ZS-CIR),其目标是在无需训练用的标记三元组的情况下构建CIR模型。为此,我们提出了一种称为Pic2Word的新方法,该方法仅需弱标记的图像-标题对和未标记的图像数据集即可进行训练。与现有的监督CIR模型不同,我们的模型在弱标记或未标记的数据集上训练后,在多种ZS-CIR任务中表现出强大的泛化能力,例如属性编辑、对象组合和域转换。我们的方法在常见的CIR基准测试数据集CIRR和Fashion-IQ上优于几种监督CIR方法。代码将在https://github.com/google-research/composed_image_retrieval公开发布。