
摘要
我们介绍了一项多实例生成(Multi-Instance Generation, MIG)任务,该任务在同一张图像中同时生成多个具有多样控制的实例。给定一组预定义的坐标及其相应的描述,任务的目标是确保生成的实例精确位于指定位置,并且所有实例的属性都符合其对应的描述。这扩展了当前单实例生成研究的范围,将其提升到一个更加通用和实用的维度。受分而治之思想的启发,我们引入了一种创新方法——多实例生成控制器(Multi-Instance Generation Controller, MIGC),以应对MIG任务中的挑战。首先,我们将MIG任务分解为若干子任务,每个子任务涉及单个实例的着色。为了确保每个实例的精确着色,我们引入了一个实例增强注意力机制。最后,我们将所有着色后的实例聚合起来,为在稳定扩散(Stable Diffusion, SD)中准确生成多个实例提供必要的信息。为了评估生成模型在MIG任务上的表现,我们提供了COCO-MIG基准数据集及相应的评估流程。我们在提出的COCO-MIG基准数据集上进行了广泛的实验,并在各种常用的基准数据集上也进行了测试。评估结果显示,我们的模型在数量、位置、属性和交互方面表现出卓越的控制能力。代码和演示将在https://migcproject.github.io/ 上发布。