2 个月前

GLIGEN：开放集锚定文本到图像生成

Li, Yuheng ; Liu, Haotian ; Wu, Qingyang ; Mu, Fangzhou ; Yang, Jianwei ; Gao, Jianfeng ; Li, Chunyuan ; Lee, Yong Jae

摘要

大规模文本到图像扩散模型已经取得了令人瞩目的进展。然而，目前的现状是仅使用文本输入，这可能会限制其可控性。在本研究中，我们提出了一种名为GLIGEN（Grounded-Language-to-Image Generation）的新方法，该方法在现有的预训练文本到图像扩散模型的基础上进行了扩展，使其能够接受定位输入的条件。为了保留预训练模型的广泛概念知识，我们冻结了其所有权重，并通过门控机制将定位信息注入新的可训练层。我们的模型实现了开放世界的基于定位的文本到图像生成，支持标题和边界框条件输入，并且其定位能力在处理新颖的空间配置和概念时表现出良好的泛化性能。GLIGEN在COCO和LVIS数据集上的零样本性能显著优于现有的监督布局到图像基线方法。