8 个月前

摘要

组合图像检索（CIR）任务的目标是使用由参考图像和修改后的文本组成的复合查询来检索目标图像。先进的方法通常以对比学习作为优化目标，这种方法得益于充足的正例和负例。然而，CIR中的三元组需要高昂的人工标注成本，导致正例数量有限。此外，现有方法普遍采用批量内负采样，这减少了模型可用的负例数量。为了解决正例不足的问题，我们提出了一种数据生成方法，通过利用多模态大语言模型构建CIR的三元组。为了在微调过程中引入更多的负例，我们设计了一个两阶段微调框架，其中第二阶段引入了大量静态负表示，以快速优化表示空间。上述两项改进可以有效叠加，并设计为即插即用的形式，无需改变现有CIR模型的原始架构即可轻松应用。广泛的实验和消融分析表明，我们的方法能够有效地扩展正例和负例，并在FashionIQ和CIRR数据集上取得了最先进的结果。此外，我们的方法在零样本组合图像检索中也表现出色，为低资源场景提供了一种新的CIR解决方案。我们的代码和数据已发布在https://github.com/BUAADreamer/SPN4CIR。

源 PDF