17日前
意味的ボトルネックを有するシーン生成
Samaneh Azadi, Michael Tschannen, Eric Tzeng, Sylvain Gelly, Trevor Darrell, Mario Lucic

要約
ラベル条件付き画像生成手法の高忠実度生成能力と無条件生成モデルの柔軟性を統合することで、複雑なシーンの無条件生成を目的とした意味的バトルネックGANモデルを提案する。本手法では、学習段階において画素単位のセグメンテーションラベルが利用可能であると仮定し、それらを用いてシーンの構造を学習する。推論段階では、モデルはまず完全に新しい視点から現実的なセグメンテーションレイアウトを生成し、次にそのレイアウトを条件として現実的なシーンを生成する。前者のレイアウト生成には、現実的な意味的シーンレイアウトの分布を捉えることができる無条件プログレッシブセグメンテーション生成ネットワークを用いる。後者の画像生成には、意味的レイアウトを条件とした写真レベルのリアルさを持つ画像の分布を捉えることができる条件付きセグメンテーションから画像への生成ネットワークを採用する。エンド・ツー・エンドで訓練された本モデルは、Frechet Inception Distance(FID)およびユーザースタディ評価において、2つの困難なドメインにおける非教師付き画像生成の最先端モデルを上回る性能を示した。さらに、生成されたセグメンテーションマップが、最近のセグメンテーションから画像への生成ネットワークの訓練データとして追加で利用可能であり、その性能を著しく向上させられることを実証した。