2 个月前
联合与征服:使用扩散模型的即插即用多模态合成
Nair, Nithin Gopalakrishnan ; Bandara, Wele Gedara Chaminda ; Patel, Vishal M.

摘要
生成满足多个约束条件的照片在内容创作行业中具有广泛的应用。实现这一任务的关键障碍在于需要包含所有模态(即,约束条件)及其相应输出的配对数据。此外,现有的方法在引入新条件时需要使用跨所有模态的配对数据重新训练。本文提出了一种基于去噪扩散概率模型(DDPMs)的解决方案。我们选择扩散模型而非其他生成模型的原因在于其灵活的内部结构。由于DDPM中的每个采样步骤都遵循高斯分布,我们证明了在给定多种约束条件下生成图像存在闭式解。我们的方法可以将多个训练于不同子任务的扩散模型统一起来,并通过我们提出的采样策略克服组合任务。我们还引入了一个新的可靠性参数,该参数允许在采样过程中单独使用各种现成的扩散模型,这些模型是在不同的数据集上训练的,以引导生成结果满足多个约束条件。我们在各种标准多模态任务上进行了实验,以展示我们方法的有效性。更多细节请参见:https://nithin-gk.github.io/projectpages/Multidiff/index.html