2 个月前

MagicLens:基于开放指令的自监督图像检索

Kai Zhang; Yi Luan; Hexiang Hu; Kenton Lee; Siyuan Qiao; Wenhu Chen; Yu Su; Ming-Wei Chang
MagicLens:基于开放指令的自监督图像检索
摘要

图像检索,即根据参考图像找到所需的图像,本质上包含了丰富且多方面的搜索意图,这些意图仅通过基于图像的度量难以完全捕捉。近期的研究利用文本指令让用户能够更自由地表达其搜索意图。然而,这些研究主要集中在视觉上相似的图像对和/或可以通过少量预定义关系描述的图像对上。本文的核心论点是,文本指令可以实现超越视觉相似性的更丰富的关系检索。为了证明这一点,我们引入了MagicLens,一系列支持开放式指令的自监督图像检索模型。MagicLens 基于一个关键的新见解:自然出现在同一网页上的图像对包含广泛隐含的关系(例如,“内部视图”),我们可以通过基础模型合成指令来使这些隐含关系显式化。MagicLens 在从网络中挖掘出的 3670 万组(查询图像、指令、目标图像)三元组上进行训练,这些三元组具有丰富的语义关系。在八个不同图像检索任务的基准测试中,MagicLens 的性能与先前的最佳方法相当甚至更好,同时在显著减小模型规模的情况下保持了高参数效率。此外,对 140 万张未见过的图像进行的人工分析进一步展示了 MagicLens 支持的搜索意图多样性。代码和模型已在 https://open-vision-language.github.io/MagicLens/ 公开发布。