17 天前

面向开放世界文本引导的人脸图像生成与操控

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu
面向开放世界文本引导的人脸图像生成与操控
摘要

现有的文本引导图像生成方法仅能生成最高分辨率为 \mbox{$\text{256}^2$} 的有限质量图像,且文本指令的语料库规模受限。在本工作中,我们提出了一种统一框架,用于人脸图像的生成与编辑,能够基于多模态输入生成多样化且高质量的图像,其分辨率达到了前所未有的 1024×1024。更重要的是,我们的方法支持开放世界场景,无需任何重训练、微调或后处理,即可同时处理图像与文本输入。具体而言,我们提出了一种全新的文本引导图像生成与编辑范式,充分利用预训练生成对抗网络(GAN)模型的优异特性。该范式包含两项创新策略:第一,训练一个文本编码器,以获得与预训练 GAN 模型分层语义结构对齐的潜在表征(latent codes);第二,利用预训练语言模型的指导,直接在预训练 GAN 模型的潜在空间中优化这些潜在代码。这些潜在代码可从先验分布中随机采样,也可由给定图像反演获得,从而天然支持基于多模态输入(如草图、语义标签等)并结合文本引导的图像生成与编辑任务。为促进文本引导的多模态图像合成,我们构建了大规模数据集 Multi-Modal CelebA-HQ,该数据集包含真实人脸图像及其对应的语义分割图、草图以及文本描述。在该数据集上开展的大量实验充分验证了所提方法的优越性能。相关代码与数据已开源,地址为:https://github.com/weihaox/TediGAN。