8 个月前

摘要

空间控制是可控图像生成的核心能力。布局引导的图像生成技术的进步已经在具有相似空间配置的同分布（ID）数据集上展示了令人鼓舞的结果。然而，当这些模型面对具有任意、未见过的布局的异分布（OOD）样本时，其性能如何尚不清楚。在本文中，我们提出了LayoutBench，这是一个用于布局引导图像生成的诊断基准测试，旨在考察四个类别的空间控制技能：数量、位置、大小和形状。我们对两种最近代表性的布局引导图像生成方法进行了基准测试，并观察到良好的ID布局控制可能无法很好地泛化到野外的任意布局（例如边界处的对象）。接下来，我们提出了一种新的基线方法IterInpaint，该方法通过逐步修复生成前景和背景区域，展示了在LayoutBench上的OOD布局上比现有模型更强的泛化能力。我们对LayoutBench中的四项技能进行了定量和定性评估以及细粒度分析，以确定现有模型的弱点。我们还展示了IterInpaint的全面消融研究，包括训练任务比例、裁剪粘贴与重绘以及生成顺序。最后，我们在新的基准测试LayoutBench-COCO上评估了不同预训练布局引导图像生成模型的零样本性能，该基准测试包含真实对象的OOD布局，在所有四个分割中我们的IterInpaint始终优于最先进的基线模型。项目网站：https://layoutbench.github.io

源 PDF 查看代码