
摘要
现有的条件图像生成框架通常仅基于用户输入的单一模态(如文本、语义分割图、草图或风格参考)生成图像,当存在多模态输入时,这些方法往往无法有效利用,从而限制了其实际应用价值。为解决这一局限性,我们提出了一种基于专家乘积的生成对抗网络(Product-of-Experts Generative Adversarial Networks, PoE-GAN)框架,该框架能够基于多个输入模态或其中任意子集(甚至空集)进行图像生成。PoE-GAN 由一个专家乘积生成器和一个多模态多尺度投影判别器构成。通过精心设计的训练策略,PoE-GAN 能够生成高质量且具有多样性的图像。该方法不仅推动了多模态条件图像生成领域的技术前沿,且在单模态设置下测试时,其性能也优于现有最佳的单模态条件图像生成方法。项目主页详见:https://deepimagination.github.io/PoE-GAN。