摘要
近年来,零样本组合图像检索(Zero-Shot Composed Image Retrieval, ZS-CIR)受到越来越多关注,其核心任务是根据由参考图像与相对文本共同构成的查询,检索出目标图像,且无需任何训练样本。具体而言,相对文本用于描述两张图像之间的差异。当前主流的ZS-CIR方法通常采用图像到文本(Image-to-Text, I2T)模型将查询图像转换为单一描述性标题,再通过文本融合策略将该标题与相对文本结合,生成用于检索的组合文本。然而,这类方法忽视了一个关键问题:ZS-CIR不仅需要考虑组合文本与检索图像之间的最终相似度,还应关注在组合编辑过程中语义的增量变化。为解决上述局限性,本文提出一种无需训练的方法——面向ZS-CIR的语义编辑增量模型(Semantic Editing Increment for ZS-CIR, SEIZE),旨在仅基于查询图像与相对文本完成目标图像的检索。首先,我们利用预训练的图像描述生成模型为参考图像生成多样化的描述文本,并引导大语言模型(Large Language Models, LLMs)基于这些描述与相对文本进行广度上的组合推理,从而充分覆盖目标图像的潜在语义。随后,我们设计了一种语义编辑搜索机制,将相对文本所带来的语义增量有效融入检索过程。具体而言,我们综合考虑相对语义增量与绝对相似度,构建最终的检索得分,并在CLIP特征空间中据此检索目标图像。在三个公开数据集上的大量实验表明,所提出的SEIZE方法取得了新的最先进性能。相关代码已公开,可访问 https://github.com/yzy-bupt/SEIZE。