
私たちは、制御可能な構造に誘導される画像間変換、つまりソースからターゲットドメインへの画像の転送を実現する統一的なジェネレーティブ・アダバーシャル・ネットワーク(GAN)を提案します。参考画像に条件付けを行うだけでなく、クラスラベル、オブジェクトのキーポイント、ヒューマンスケルトン、シーンの意味論的地図などの制御可能な構造に条件付けされた画像生成方法も示します。提案されたモデルは、単一のジェネレータと、条件付き画像とターゲットの制御可能な構造を入力とするディスクリミネータで構成されています。これにより、条件付き画像が外観情報を提供し、制御可能な構造が生成結果の構造情報を提供することができます。さらに、私たちのモデルは色損失(color loss)、制御可能な構造ガイド付きサイクル一致性損失(controllable structure guided cycle-consistency loss)、および制御可能な構造ガイド付き自己コンテンツ保存損失(controllable structure guided self-content preserving loss)という3つの新しい損失を通じて画像間マッピングを学習します。また、生成された画像の品質評価のためにフレシェ・レジネット距離(Fréchet ResNet Distance: FRD)を提示しています。手のジェスチャー間変換とクロスビュー画像変換という2つの難易度の高い画像変換タスクにおける実験では、私たちのモデルが説得力のある結果を生成し、両方のタスクにおいて他の最先端手法よりも大幅に優れていることが示されました。同時に、提案したフレームワークは統一的な解決策であるため、ランドマークガイド付き顔表情変換やキーポイントガイド付き人物画像生成など他の制御可能な構造に誘導される画像変換タスクにも適用できます。当該研究において最善の知識に基づくと、私たちは初めてこのようなすべての制御可能な構造に誘導される画像変換タスクに対して1つのGANフレームワークを機能させることに成功しました。コードは https://github.com/Ha0Tang/GestureGAN で利用可能です。