
要約
本稿では、自然言語の記述に従って画像生成の特定領域を制御可能な新しい制御可能テキストから画像への生成的対抗ネットワーク(ControlGAN)を提案する。本手法は高品質な画像を効果的に合成するとともに、自然言語による指示に基づいて画像生成の特定部分を制御することを可能にする。この目的を達成するため、単語レベルでの空間的・チャネル的注意機構を駆動する生成器を導入し、異なる視覚的属性を分離可能にし、関連性の高い単語に対応する部分領域の生成・操作にモデルが集中できるようにする。さらに、単語レベルの識別器を提案することで、単語と画像領域との相関関係を用いて細粒度の監視フィードバックを提供し、他のコンテンツの生成に影響を与えることなく特定の視覚的属性を操作できる有効な生成器の学習を促進する。また、画像生成におけるランダム性を低減し、修正されたテキストに要求される特定の属性を適切に操作するよう生成器を促すために、知覚損失(perceptual loss)を導入する。標準ベンチマークデータセットを用いた広範な実験の結果、本手法は既存の最先端手法を上回り、自然言語記述を用いた合成画像の有効な操作が可能であることを示した。コードは以下のURLで公開されている:https://github.com/mrlibw/ControlGAN。