HyperAIHyperAI

Command Palette

Search for a command to run...

CompoDiff:基于潜在扩散的多功能组合图像检索

Gu Geonmo ; Chun Sanghyuk ; Kim Wonjae ; Jun HeeJae ; Kang Yoohoon ; Yun Sangdoo

摘要

本文提出了一种基于扩散的新模型——CompoDiff,用于通过潜在扩散解决零样本组合图像检索(ZS-CIR)问题。本文还介绍了一个新的合成数据集,命名为SynthTriplets18M,包含1880万张参考图像、条件及相应的目标图像三元组,用于训练CIR模型。CompoDiff和SynthTriplets18M解决了以往CIR方法中存在的不足,例如由于数据集规模较小和条件类型有限导致的泛化能力较差。CompoDiff不仅在四个ZS-CIR基准测试中取得了最新的最佳性能,包括FashionIQ、CIRR、CIRCO和GeneCIS,而且还通过接受各种条件(如负文本和图像掩码条件)实现了更加灵活和可控的CIR。此外,CompoDiff展示了在文本和图像查询之间调节条件强度的可控性以及推理速度与性能之间的权衡,这些功能是现有CIR方法所不具备的。代码和数据集可在https://github.com/navervision/CompoDiff 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供