HyperAIHyperAI

Command Palette

Search for a command to run...

多モーダル非教師付き画像対画像変換

Xun Huang Ming-Yu Liu Serge Belongie Jan Kautz

概要

非監督画像対画像変換は、コンピュータビジョンにおいて重要な課題であり、挑戦的な問題です。ソースドメインの画像が与えられた場合、対応するターゲットドメインの画像の条件付き分布を学習することを目指しますが、対応する画像のペアを見ることなく行う必要があります。この条件付き分布は本質的に多峰的であるにもかかわらず、既存の手法では過度に単純化された仮定がなされ、決定論的な一対一のマッピングとしてモデル化されています。その結果、特定のソースドメインの画像から多様な出力を生成することができません。この制約に対処するために、我々は多峰的非監督画像対画像変換(Multimodal Unsupervised Image-to-image Translation: MUNIT)フレームワークを提案します。画像表現は、ドメイン間で不変であるコンテンツコードと、ドメイン固有の特性を捉えるスタイルコードに分解できると仮定しています。あるドメインから別のドメインへの画像変換を行う際には、そのコンテンツコードをターゲットドメインのスタイル空間からランダムにサンプリングされたスタイルコードと再結合します。提案したフレームワークについて分析を行い、いくつかの理論的な結果を確立しました。最新手法との比較実験も広範に行い、提案したフレームワークの優位性をさらに示しています。さらに、当フレームワークではユーザーが例示的なスタイルイメージを提供することで翻訳出力のスタイルを制御することが可能です。コードおよび事前学習済みモデルは以下のURLで公開されています: https://github.com/nvlabs/MUNIT


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています