
要約
私たちは、意味的なレイアウトに基づいて写真のような画像を合成する手法を提案します。意味ラベルマップが与えられると、当手法は入力レイアウトに適合した写真的な外観の画像を生成します。この手法は、シーンの二次元的な意味的仕様を取り扱うレンダリングエンジンとして機能し、それに応じた写真的な画像を生成します。最近および同時期の研究とは異なり、当手法では敵対的訓練(adversarial training)に依存していません。私たちは、適切な構造を持つ単一のフィードフォワードネットワークが直接回帰目的関数でエンドツーエンドで学習されることにより、意味的なレイアウトから写真的な画像を合成できることを示しています。提案された手法は高解像度にもシームレスに対応しており、2メガピクセル解像度(トレーニングデータのフル解像度)での写真的画像の合成を実証しています。屋内外シーンのデータセットにおける広範な知覚実験により、提案手法によって合成された画像は代替手法よりも著しく現実的であることが示されています。結果は補足ビデオ(https://youtu.be/0fhUJT21-bs)で確認できます。