2 个月前

一种用于组合图像检索的高效事后框架以减少文本编码器的任务差异

Jaeseok Byun; Seokhyeon Jeong; Wonjae Kim; Sanghyuk Chun; Taesup Moon

摘要

组合图像检索（Composed Image Retrieval, CIR）旨在根据参考图像和条件文本检索目标图像，从而实现可控的图像搜索。现有的主流零样本（Zero-Shot, ZS）CIR方法通过将图像嵌入投影到文本标记嵌入空间中，形成一个组合查询来进行检索，从而绕过了昂贵的CIR三元组训练需求。然而，我们指出这些基于投影的CIR方法存在一个固有的局限性：文本编码器在原始预训练任务（文本 $\leftrightarrow$ 图像）和目标CIR任务（图像 + 文本 $\leftrightarrow$ 图像）之间存在任务差异，这可能会对CIR性能产生负面影响。为了减少这种差异，一种简单的解决方案是通过监督方式使用CIR三元组同时训练图像和文本编码器。相反，我们引入了一种高效的仅文本后处理框架——减少文本编码器任务差异（Reducing Task Discrepancy of Text Encoders, RTD），以补充基于投影的CIR方法。我们设计了一种新的目标锚定文本对比学习方法，旨在增强文本编码器在CIR中的能力。此外，我们提出了两项关键改进：(1) 基于难负例的精炼批量采样策略；(2) 精炼的连接方案，进一步缓解训练与推理之间的差异。将RTD集成到最先进的基于投影的方法中，在4个A100 GPU上只需额外23分钟的训练时间即可达到与资源密集型的最新合成CIR三元组方法相当甚至超越的性能（训练速度可提高至100倍）。我们的代码将在论文被接受后公开发布。