2 个月前

BoxDiff:无需训练的盒约束扩散文本到图像合成

Xie, Jinheng ; Li, Yuexiang ; Huang, Yawen ; Liu, Haozhe ; Zhang, Wentian ; Zheng, Yefeng ; Shou, Mike Zheng
BoxDiff:无需训练的盒约束扩散文本到图像合成
摘要

近期的文本到图像扩散模型展示了生成高质量图像的惊人能力。然而,研究人员主要集中在仅使用文本提示来合成图像的方法上。尽管一些研究探索了利用其他模态作为条件,但这些方法需要大量的配对数据(例如,框/掩码-图像对)以及长时间的微调来培养模型。由于获取此类配对数据既耗时又费力,并且局限于封闭的数据集,这可能成为开放世界应用中的瓶颈。本文关注用户提供的最简单的条件形式,例如框或涂鸦。为了解决上述问题,我们提出了一种无需训练的方法,以控制合成图像中对象和上下文的位置,使其符合给定的空间条件。具体而言,设计了三种空间约束,即内框约束(Inner-Box)、外框约束(Outer-Box)和角点约束(Corner Constraints),并将其无缝集成到扩散模型的去噪步骤中,无需额外的训练和大量标注的布局数据。广泛的实验结果表明,所提出的约束可以在保留扩散模型高保真度和多样概念覆盖能力的同时,控制图像中呈现的内容及其位置。代码已公开发布在 https://github.com/showlab/BoxDiff。