8 个月前

多模态表征

计算机视觉

计算机视觉

Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie

摘要

本文研究了复合图像检索（CIR）问题，其目标是训练一个模型，该模型能够融合多模态信息（例如文本和图像），以准确检索与查询匹配的图像，从而扩展用户的表达能力。我们做出了以下贡献：(i) 我们提出了一种可扩展的管道，用于自动构建训练CIR模型的数据集，通过利用大规模的图像-文本对数据集（如LAION-5B的一个子集）来实现；(ii) 我们引入了一种基于 Transformer 的自适应聚合模型——TransAgg，该模型采用了一种简单而高效的融合机制，能够自适应地结合来自不同模态的信息；(iii) 我们进行了广泛的消融研究，以探讨所提出的自动数据构建方法的有效性以及TransAgg核心组件的效果；(iv) 在零样本场景下（即在自动构建的数据集上进行训练，然后直接在目标下游数据集上进行推理，例如CIRR和FashionIQ），我们的方法要么与现有的最先进（SOTA）模型表现相当，要么显著优于这些模型。项目页面：https://code-kunkun.github.io/ZS-CIR/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

计算机视觉

Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie

摘要

本文研究了复合图像检索（CIR）问题，其目标是训练一个模型，该模型能够融合多模态信息（例如文本和图像），以准确检索与查询匹配的图像，从而扩展用户的表达能力。我们做出了以下贡献：(i) 我们提出了一种可扩展的管道，用于自动构建训练CIR模型的数据集，通过利用大规模的图像-文本对数据集（如LAION-5B的一个子集）来实现；(ii) 我们引入了一种基于 Transformer 的自适应聚合模型——TransAgg，该模型采用了一种简单而高效的融合机制，能够自适应地结合来自不同模态的信息；(iii) 我们进行了广泛的消融研究，以探讨所提出的自动数据构建方法的有效性以及TransAgg核心组件的效果；(iv) 在零样本场景下（即在自动构建的数据集上进行训练，然后直接在目标下游数据集上进行推理，例如CIRR和FashionIQ），我们的方法要么与现有的最先进（SOTA）模型表现相当，要么显著优于这些模型。项目页面：https://code-kunkun.github.io/ZS-CIR/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供