
最近の深層生成モデルの著しい進歩に伴い、再構成可能な入力から制御可能な画像合成を行うモデルの開発がますます興味深い課題となっています。本論文では、レイアウトから画像への生成という最近注目を集めているタスクに焦点を当て、空間的なレイアウト(つまり、画像格子内に配置されたオブジェクトのバウンディングボックス)とスタイル(つまり、潜在ベクトルによって符号化された構造的および外観的な変動)から写実的な画像を生成する能力を持つ生成モデルを学習することを目指しています。本論文はまず、このタスクに対する直感的なパラダイムである「レイアウトからマスクへ、そして画像へ」(layout-to-mask-to-image)を提案します。これは、入力レイアウト内の指定されたバウンディングボックスのオブジェクトマスクを展開し、入力レイアウトと生成された画像との間のギャップを埋めるためのものです。次に、本論文では、提案したレイアウトからマスクへ、そして画像への生成タスクにおいて両レベルでのスタイル制御を可能にするジェネレーティブ・アドバーサリアル・ネットワーク(GAN)に基づく方法を提示します。オブジェクトマスクは入力レイアウトから学習され、ジェネレータネットワーク内の段階で反復的に洗練されます。画像レベルでのスタイル制御は従来のGANと同じですが、オブジェクトマスクレベルでのスタイル制御は提案される新しい特徴正規化スキーム、「インスタンス感応型かつレイアウト認識型正規化」(Instance-Sensitive and Layout-Aware Normalization)によって実現されます。実験では、提案手法がCOCO-StuffデータセットとVisual Genomeデータセットで最先端の性能を達成していることを示しています。