6 个月前

多模态表征

Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi

摘要

文本到图像的扩散模型如今已具备生成在视觉上与真实图像难以区分的图像的能力。为实现这一目标，这些模型必须理解所要求生成对象的语义信息。在本研究中，我们表明，无需任何训练，即可利用扩散模型内部隐含的语义知识，来建立多张图像之间的语义对应关系——即在不同图像中具有相同语义含义的位置。具体而言，给定一张图像后，我们通过优化模型的提示嵌入（prompt embeddings），使其在感兴趣区域上产生最大注意力。这些经过优化的嵌入能够捕捉到特定位置的语义信息，进而可迁移至另一张图像。通过该方法，我们在PF-Willow数据集上的表现达到与强监督状态下最先进的方法相当的水平，并在CUB-200和SPair-71k数据集上，显著优于现有的任何弱监督或无监督方法（在SPair-71k数据集上相对提升达20.9%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi

摘要

文本到图像的扩散模型如今已具备生成在视觉上与真实图像难以区分的图像的能力。为实现这一目标，这些模型必须理解所要求生成对象的语义信息。在本研究中，我们表明，无需任何训练，即可利用扩散模型内部隐含的语义知识，来建立多张图像之间的语义对应关系——即在不同图像中具有相同语义含义的位置。具体而言，给定一张图像后，我们通过优化模型的提示嵌入（prompt embeddings），使其在感兴趣区域上产生最大注意力。这些经过优化的嵌入能够捕捉到特定位置的语义信息，进而可迁移至另一张图像。通过该方法，我们在PF-Willow数据集上的表现达到与强监督状态下最先进的方法相当的水平，并在CUB-200和SPair-71k数据集上，显著优于现有的任何弱监督或无监督方法（在SPair-71k数据集上相对提升达20.9%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供