17 天前
ARTEMIS:基于注意力机制的文本显式匹配与隐式相似性检索
Ginger Delmas, Rafael Sampaio de Rezende, Gabriela Csurka, Diane Larlus

摘要
一种直观的图像搜索方式是使用由一张示例图像和一段补充文本组成的查询。其中,图像提供了丰富的隐含上下文信息,而文本则明确表达了所需的新特征,或指定了如何修改示例图像中的某些元素,以获得目标图像。当前的方法通常将查询的两个组成部分(图像与文本)的特征融合为单一表示,再与候选目标图像的特征进行比较。本文工作旨在通过两个熟悉且相关的框架——文本到图像生成(text-to-image)和图像到图像检索(image-to-image retrieval)——的视角,为该任务提供新的理解。受这些框架的启发,我们深入分析查询中每一元素与目标图像之间的特定关联,进而设计出轻量级的注意力机制,以有效协调两种互补模态之间的信息交互。我们在多个检索基准上验证了所提方法的有效性,采用图像及其对应的自由形式文本修饰符作为查询。实验结果表明,该方法在无需依赖额外信息、多层级特征、复杂预训练或庞大模型架构的前提下,取得了当前最优的性能表现。