
要約
本研究では、テキスト説明を用いた多モーダル画像生成および操作の新しいフレームワークであるTediGANを提案します。提案手法は3つのコンポーネントから構成されています:StyleGAN逆変換モジュール、視覚言語類似性学習、およびインスタンスレベル最適化です。逆変換モジュールは、実際の画像を十分に訓練されたStyleGANの潜在空間にマッピングします。視覚言語類似性学習は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト-画像対応を学習します。インスタンスレベル最適化は、操作時の同一性保持のために用いられます。当モデルは、1024ピクセルという前例のない解像度で多様かつ高品質な画像を生成することができます。スタイルミキシングに基づく制御メカニズムにより、TediGANはスケッチやセマンティックラベルなどの多モーダル入力を用いた画像合成をサポートしており、インスタンスガイドの有無に関わらず利用可能です。多モーダル合成におけるテキストガイダンスを促進するため、我々は大規模データセットMulti-Modal CelebA-HQ(マルチモーダル・セレブA-HQ)を提案します。このデータセットには実際の人間の顔画像とそれに対応するセマンティックセグメンテーションマップ、スケッチ、そしてテキスト説明が含まれています。導入したデータセットでの広範な実験により、提案手法の優れた性能が示されました。コードとデータセットは https://github.com/weihaox/TediGAN で公開されています。