
要約
従来の条件付き画像生成フレームワークは、テキスト、セグメンテーション、スケッチ、スタイルリファレンスなどの単一モダリティのユーザー入力に基づいて画像を生成するものである。これらの手法は、複数のモダリティの入力が利用可能である場合でも、それを活用できないことが多く、実用性に制限がある。この課題を解決するため、本研究では複数の入力モダリティ、あるいはそれらの任意の部分集合、さらには空集合に対しても画像を条件付きで生成可能な「エキスパートの積による生成対抗ネットワーク(Product-of-Experts Generative Adversarial Networks, PoE-GAN)」を提案する。PoE-GANは、エキスパートの積を用いた生成器と、マルチモダルかつマルチスケールな投影を実現する識別器から構成される。精巧に設計された学習スキームにより、PoE-GANは高品質かつ多様性に富んだ画像を学習的に生成することが可能となる。本研究は、マルチモダル条件付き画像生成の分野における最新技術を大きく前進させるだけでなく、単一モダリティ設定においても、既存の最良の単一モダリティ条件付き画像生成手法を上回る性能を示した。プロジェクトウェブサイトは以下のURLで公開されている:https://deepimagination.github.io/PoE-GAN