2 个月前

LayoutDiffusion:可控扩散模型用于布局到图像生成

Zheng, Guangcong ; Zhou, Xianpan ; Li, Xuewei ; Qi, Zhongang ; Shan, Ying ; Li, Xi
LayoutDiffusion:可控扩散模型用于布局到图像生成
摘要

近期,扩散模型在图像合成领域取得了显著的成功。然而,在布局到图像生成这一任务中,由于图像通常包含多个对象组成的复杂场景,如何对全局布局图和每个详细对象进行强有力的控制仍然是一个具有挑战性的任务。本文提出了一种名为LayoutDiffusion的扩散模型,该模型在生成质量和可控性方面均优于先前的工作。为了解决图像和布局之间的多模态融合难题,我们提出构建带有区域信息的结构化图像块,并将这些图像块转换为一种特殊的布局形式,以统一的方式与常规布局进行融合。此外,本文还提出了布局融合模块(Layout Fusion Module, LFM)和对象感知交叉注意力机制(Object-aware Cross Attention, OaCA),旨在建模多个对象之间的关系,并设计为对象感知和位置敏感,从而实现对空间相关信息的精确控制。大量实验表明,我们的LayoutDiffusion在COCO-Stuff数据集上相对提升了46.35%的FID分数和26.70%的CAS分数,在VG数据集上则分别相对提升了44.29%的FID分数和41.82%的CAS分数。代码已发布在https://github.com/ZGCTroy/LayoutDiffusion。

LayoutDiffusion:可控扩散模型用于布局到图像生成 | 最新论文 | HyperAI超神经