2 个月前
诊断基准和迭代修复在布局引导图像生成中的应用
Cho, Jaemin ; Li, Linjie ; Yang, Zhengyuan ; Gan, Zhe ; Wang, Lijuan ; Bansal, Mohit

摘要
空间控制是可控图像生成的核心能力。布局引导的图像生成技术的进步已经在具有相似空间配置的同分布(ID)数据集上展示了令人鼓舞的结果。然而,当这些模型面对具有任意、未见过的布局的异分布(OOD)样本时,其性能如何尚不清楚。在本文中,我们提出了LayoutBench,这是一个用于布局引导图像生成的诊断基准测试,旨在考察四个类别的空间控制技能:数量、位置、大小和形状。我们对两种最近代表性的布局引导图像生成方法进行了基准测试,并观察到良好的ID布局控制可能无法很好地泛化到野外的任意布局(例如边界处的对象)。接下来,我们提出了一种新的基线方法IterInpaint,该方法通过逐步修复生成前景和背景区域,展示了在LayoutBench上的OOD布局上比现有模型更强的泛化能力。我们对LayoutBench中的四项技能进行了定量和定性评估以及细粒度分析,以确定现有模型的弱点。我们还展示了IterInpaint的全面消融研究,包括训练任务比例、裁剪粘贴与重绘以及生成顺序。最后,我们在新的基准测试LayoutBench-COCO上评估了不同预训练布局引导图像生成模型的零样本性能,该基准测试包含真实对象的OOD布局,在所有四个分割中我们的IterInpaint始终优于最先进的基线模型。项目网站:https://layoutbench.github.io