
要約
非監督画像対画像変換は、コンピュータビジョンにおいて重要な課題であり、挑戦的な問題です。ソースドメインの画像が与えられた場合、対応するターゲットドメインの画像の条件付き分布を学習することを目指しますが、対応する画像のペアを見ることなく行う必要があります。この条件付き分布は本質的に多峰的であるにもかかわらず、既存の手法では過度に単純化された仮定がなされ、決定論的な一対一のマッピングとしてモデル化されています。その結果、特定のソースドメインの画像から多様な出力を生成することができません。この制約に対処するために、我々は多峰的非監督画像対画像変換(Multimodal Unsupervised Image-to-image Translation: MUNIT)フレームワークを提案します。画像表現は、ドメイン間で不変であるコンテンツコードと、ドメイン固有の特性を捉えるスタイルコードに分解できると仮定しています。あるドメインから別のドメインへの画像変換を行う際には、そのコンテンツコードをターゲットドメインのスタイル空間からランダムにサンプリングされたスタイルコードと再結合します。提案したフレームワークについて分析を行い、いくつかの理論的な結果を確立しました。最新手法との比較実験も広範に行い、提案したフレームワークの優位性をさらに示しています。さらに、当フレームワークではユーザーが例示的なスタイルイメージを提供することで翻訳出力のスタイルを制御することが可能です。コードおよび事前学習済みモデルは以下のURLで公開されています: https://github.com/nvlabs/MUNIT