2ヶ月前

コンテキストに応じたレイアウトから画像生成：強化されたオブジェクトの外観

He, Sen ; Liao, Wentong ; Yang, Michael Ying ; Yang, Yongxin ; Song, Yi-Zhe ; Rosenhahn, Bodo ; Xiang, Tao

要約

レイアウトから画像（L2I）生成モデルは、与えられたレイアウトに基づいて、複数の物体（things）を自然な背景（stuff）に配置した複雑な画像を生成することを目指しています。最近の生成対抗ネットワーク（Generative Adversarial Networks, GANs）の進歩を基盤として、既存のL2Iモデルは大きな進展を遂げています。しかし、それらが生成した画像を詳細に検討すると、2つの主要な制限が明らかになります：(1) 物体間および物体と背景との関係がしばしば破れてしまうこと、(2) 各物体の外観が通常、その物体クラスに関連する重要な定義特性を欠いた歪みを持つことです。これらの問題は、ジェネレータ内のコンテキスト認識型の物体および背景特徴量エンコーディングと、ディスクリミネータ内の位置感応型の外観表現が不足していることが原因であると考えられます。これらの制限に対処するために、本研究では2つの新しいモジュールが提案されています。まず、ジェネレータ内にコンテキスト認識型特徴変換モジュールが導入され、生成された特徴量エンコーディングがシーン内で共存する他の物体や背景に気づくことを保証します。次に、位置非感応型の画像特徴量をディスクリミネータに入力する代わりに、生成された物体画像の特徴マップから計算されるグラム行列を使用して位置感応型情報を保存し、これにより物体の外観が大幅に向上します。広範な実験結果は、提案手法がCOCO-Thing-StuffおよびVisual Genomeベンチマークにおいて最先端の性能を達成していることを示しています。