8 个月前

摘要

组合图像检索旨在找到最符合给定多模态用户查询（包括参考图像和文本对）的图像。现有的方法通常预先计算整个语料库的图像嵌入，并在测试时将这些嵌入与经过查询文本修改的参考图像嵌入进行比较。这种管道在测试时非常高效，因为可以使用快速向量距离来评估候选对象，但仅凭简短的文本描述来修改参考图像嵌入可能较为困难，尤其是在没有潜在候选对象的情况下。另一种方法是允许查询与每个可能的候选对象之间进行交互，即参考-文本-候选三元组，并从整个集合中挑选最佳匹配项。尽管这种方法更具辨别力，但对于大规模数据集而言，计算成本过高，因为无法预先计算候选对象的嵌入。我们提出了一种两阶段模型，结合了两种方案的优点。第一阶段采用传统的向量距离度量方法，对候选对象进行快速筛选；第二阶段则使用双编码器架构，有效关注输入的参考-文本-候选三元组并重新排序候选对象。两个阶段均利用了视觉与语言预训练网络，该网络已被证明对各种下游任务有益。我们的方法在标准基准测试中始终优于当前最先进的方法。我们的实现代码可在以下链接获取：https://github.com/Cuberick-Orion/Candidate-Reranking-CIR。

源 PDF