8 个月前

多模态表征

Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati

摘要

条件化与组合式图像检索通过将查询图像与一段附加文本相结合，拓展了传统内容基于图像检索（CBIR）系统的能力。该文本用于表达用户的意图，描述相对于查询图像视觉内容的额外需求。此类检索方式在电子商务应用中具有重要意义，例如可用于构建交互式多模态搜索系统或智能聊天机器人。在本次演示中，我们展示了一个基于组合网络的交互式系统，该网络采用对比学习进行训练，能够融合来自OpenAI CLIP模型的视觉与文本特征，以实现条件化图像检索。该系统可有效提升电商平台的搜索能力。以时尚领域为例，用户可通过一张候选起始图像，结合对视觉特征的描述（如改变颜色、图案或版型等），搜索相应的连衣裙、衬衫或上衣。所提出的网络在FashionIQ数据集和更近期的CIRR数据集上均取得了当前最优性能，充分验证了其在时尚领域条件化检索任务中的有效性，同时也展示了其在更广泛内容场景下进行组合式图像检索的通用适用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati

摘要

条件化与组合式图像检索通过将查询图像与一段附加文本相结合，拓展了传统内容基于图像检索（CBIR）系统的能力。该文本用于表达用户的意图，描述相对于查询图像视觉内容的额外需求。此类检索方式在电子商务应用中具有重要意义，例如可用于构建交互式多模态搜索系统或智能聊天机器人。在本次演示中，我们展示了一个基于组合网络的交互式系统，该网络采用对比学习进行训练，能够融合来自OpenAI CLIP模型的视觉与文本特征，以实现条件化图像检索。该系统可有效提升电商平台的搜索能力。以时尚领域为例，用户可通过一张候选起始图像，结合对视觉特征的描述（如改变颜色、图案或版型等），搜索相应的连衣裙、衬衫或上衣。所提出的网络在FashionIQ数据集和更近期的CIRR数据集上均取得了当前最优性能，充分验证了其在时尚领域条件化检索任务中的有效性，同时也展示了其在更广泛内容场景下进行组合式图像检索的通用适用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供