8 个月前

摘要

近年来，大型文本到图像扩散模型在生成高保真图像方面展现出了强大的能力。然而，仅通过文本提示生成所需的图像非常具有挑战性，因为这通常涉及复杂的提示工程。作为文本提示的替代方案，图像提示因其“一图胜千言”的特性而受到关注。尽管现有的直接微调预训练模型的方法效果显著，但它们需要大量的计算资源，并且与其他基础模型、文本提示和结构控制不兼容。本文提出了一种有效且轻量级的适配器——IP-Adapter，旨在为预训练的文本到图像扩散模型实现图像提示功能。IP-Adapter 的关键设计在于解耦交叉注意力机制，该机制将用于处理文本特征和图像特征的交叉注意力层分开。尽管我们的方法简单，但仅有 2200 万个参数的 IP-Adapter 即可达到与完全微调的图像提示模型相当甚至更好的性能。由于我们冻结了预训练的扩散模型，所提出的 IP-Adapter 不仅可以推广到从同一基础模型微调的其他自定义模型，还可以与现有的可控生成工具结合使用以实现可控生成。得益于解耦交叉注意力策略的优势，图像提示还可以与文本提示协同工作，实现多模态图像生成。项目页面可在以下网址访问：https://ip-adapter.github.io。

源 PDF 查看代码