6 个月前

摘要

零样本组合图像检索（Zero-Shot Composed Image Retrieval, ZS-CIR）近年来受到越来越多关注，其目标是在无训练样本的情况下，基于由参考图像与修改文本组成的查询，检索出目标图像。具体而言，修改文本描述了参考图像与目标图像之间的语义差异。当前主流方法通常采用预训练的图文模型将查询中的图像与文本统一转换为单一文本表示，再通过CLIP模型将其投影至共享特征空间以实现目标图像的检索。然而，这些方法忽视了ZS-CIR本质上是一种模糊检索任务——目标图像的语义并未被查询图像与文本严格限定。为克服这一局限，本文提出一种无需训练的基于大语言模型（LLM）的发散推理与集成方法（Divergent Reasoning and Ensemble, LDRE），以捕捉组合结果的多种潜在语义。首先，我们利用预训练的图像描述生成模型，为参考图像生成多视角的密集描述（dense captions），以涵盖参考图像的不同语义维度。随后，通过提示（prompt）大语言模型（LLMs），基于这些密集描述与修改文本进行发散式组合推理，生成多条涵盖目标组合图像可能语义的编辑后描述（divergent edited captions）。最后，设计一种发散描述集成机制，根据语义相关性得分对各编辑描述进行加权，融合得到最终的集成描述特征，并将其用于CLIP特征空间中的目标图像检索。在三个公开数据集上的大量实验表明，所提出的LDRE方法取得了当前最优的性能，达到了新的技术水平。

源 PDF 查看代码