6 个月前

多模态表征

计算机视觉

Ginger Delmas Rafael Sampaio de Rezende Gabriela Csurka Diane Larlus

摘要

一种直观的图像搜索方式是使用由一张示例图像和一段补充文本组成的查询。其中，图像提供了丰富的隐含上下文信息，而文本则明确表达了所需的新特征，或指定了如何修改示例图像中的某些元素，以获得目标图像。当前的方法通常将查询的两个组成部分（图像与文本）的特征融合为单一表示，再与候选目标图像的特征进行比较。本文工作旨在通过两个熟悉且相关的框架——文本到图像生成（text-to-image）和图像到图像检索（image-to-image retrieval）——的视角，为该任务提供新的理解。受这些框架的启发，我们深入分析查询中每一元素与目标图像之间的特定关联，进而设计出轻量级的注意力机制，以有效协调两种互补模态之间的信息交互。我们在多个检索基准上验证了所提方法的有效性，采用图像及其对应的自由形式文本修饰符作为查询。实验结果表明，该方法在无需依赖额外信息、多层级特征、复杂预训练或庞大模型架构的前提下，取得了当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Ginger Delmas Rafael Sampaio de Rezende Gabriela Csurka Diane Larlus

摘要

一种直观的图像搜索方式是使用由一张示例图像和一段补充文本组成的查询。其中，图像提供了丰富的隐含上下文信息，而文本则明确表达了所需的新特征，或指定了如何修改示例图像中的某些元素，以获得目标图像。当前的方法通常将查询的两个组成部分（图像与文本）的特征融合为单一表示，再与候选目标图像的特征进行比较。本文工作旨在通过两个熟悉且相关的框架——文本到图像生成（text-to-image）和图像到图像检索（image-to-image retrieval）——的视角，为该任务提供新的理解。受这些框架的启发，我们深入分析查询中每一元素与目标图像之间的特定关联，进而设计出轻量级的注意力机制，以有效协调两种互补模态之间的信息交互。我们在多个检索基准上验证了所提方法的有效性，采用图像及其对应的自由形式文本修饰符作为查询。实验结果表明，该方法在无需依赖额外信息、多层级特征、复杂预训练或庞大模型架构的前提下，取得了当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供