2 个月前

BLIP-Diffusion：可控文本到图像生成和编辑的预训练主题表示

Dongxu Li; Junnan Li; Steven C.H. Hoi

摘要

基于主题的文本到图像生成模型根据文本提示创建输入主题的新颖表现形式。现有的模型存在细调时间长和难以保持主题保真度的问题。为了解决这些限制，我们引入了BLIP-Diffusion，这是一种新的基于主题的图像生成模型，支持多模态控制，可以接受主题图像和文本提示作为输入。与其他基于主题的生成模型不同，BLIP-Diffusion引入了一个新的多模态编码器，该编码器经过预训练以提供主题表示。首先，我们按照BLIP-2的方法对多模态编码器进行预训练，以生成与文本对齐的视觉表示。然后，我们设计了一个主题表示学习任务，使扩散模型能够利用这种视觉表示并生成新的主题表现形式。与DreamBooth等先前方法相比，我们的模型实现了零样本的主题驱动生成，并且在定制化主题的高效细调方面可实现高达20倍的速度提升。我们还展示了BLIP-Diffusion可以灵活地与现有技术（如ControlNet和prompt-to-prompt）结合使用，以实现新颖的主题驱动生成和编辑应用。代码和模型将在https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion发布。项目页面位于https://dxli94.github.io/BLIP-Diffusion-website/。