17 天前

可控文本到图像生成

Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, Philip H. S. Torr
可控文本到图像生成
摘要

本文提出了一种新型的可控文本到图像生成对抗网络(ControlGAN),该模型能够高效生成高质量图像,并根据自然语言描述对图像生成过程进行精确控制。为实现这一目标,我们设计了一种基于词级别的空间与通道注意力驱动的生成器,该生成器可解耦不同的视觉属性,使模型能够聚焦于生成和操作与最相关词汇对应的图像子区域。同时,我们提出了一种词级别的判别器,通过将词汇与图像区域进行关联,提供细粒度的监督反馈,从而促进训练出一个具备精确操控特定视觉属性能力的有效生成器,且不会干扰其他内容的生成。此外,引入感知损失(perceptual loss)以降低图像生成过程中的随机性,并引导生成器根据文本修改需求准确操控指定属性。在多个基准数据集上的大量实验表明,所提方法显著优于现有最先进方法,能够有效利用自然语言描述对合成图像进行精准操控。代码已开源,获取地址为:https://github.com/mrlibw/ControlGAN。