2 个月前

上下文I2W：将图像映射到依赖于上下文的词语以实现准确的零样本组合图像检索

Yuanmin Tang; Jing Yu; Keke Gai; Jiamin Zhuang; Gang Xiong; Yue Hu; Qi Wu

摘要

不同于需要昂贵标签来训练特定任务模型的组合图像检索任务，零样本组合图像检索（ZS-CIR）涉及多种任务，这些任务涵盖了广泛的视觉内容操作意图，可能与领域、场景、对象和属性相关。ZS-CIR任务的关键挑战在于学习一种更精确的图像表示方法，该方法能够根据不同的操作描述对参考图像进行自适应关注。在本文中，我们提出了一种新颖的情境依赖映射网络，命名为Context-I2W，用于将描述相关的图像信息自适应地转换为由描述组成的伪词元，以实现准确的ZS-CIR。具体而言，一个意图视图选择器首先动态学习旋转规则，将相同的图像映射到特定任务的操作视图。然后，在多个可学习查询的指导下，视觉目标提取器进一步捕捉涵盖ZS-CIR任务中主要目标的局部信息。这两个互补模块协同工作，在无需额外监督的情况下将图像映射到情境依赖的伪词元。我们的模型在四个ZS-CIR任务上表现出强大的泛化能力，包括领域转换、对象组合、对象操作和属性操作。它在最佳方法的基础上获得了从1.88%到3.60%的一致且显著的性能提升，并在ZS-CIR上取得了新的最先进结果。我们的代码可在https://github.com/Pter61/context-i2w 获取。