17日前

オープンワールドにおけるテキスト誘導型顔画像生成と操作へ向けて

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu
オープンワールドにおけるテキスト誘導型顔画像生成と操作へ向けて
要約

従来のテキスト誘導型画像生成手法は、最大で \mbox{$\text{256}^2$} 解像度までしか生成できず、テキスト指示の範囲も限定されたコーパスに制限されていました。本研究では、顔画像の生成と操作を統合的に処理するフレームワークを提案し、マルチモーダル入力に基づき、前例のない高解像度(1024)で多様かつ高品質な画像を生成することを可能にしました。さらに重要な点として、本手法は再学習、微調整、後処理を一切行わずに、画像とテキストを含むオープンワールドのシナリオをサポートしています。具体的には、事前学習済みGANモデルの優れた特性を活用した、テキスト誘導型画像生成・操作の新たなパラダイムを提案します。本パラダイムには、2つの新規戦略を含みます。第一の戦略は、事前学習済みGANモデルの階層的意味構造と整合する潜在コードを取得するために、テキストエンコーダを学習することです。第二の戦略は、事前学習済み言語モデルのガイドランスのもとで、事前学習済みGANモデルの潜在空間内の潜在コードを直接最適化することです。これらの潜在コードは、事前分布からランダムにサンプリングするか、与えられた画像から逆引き(inversion)することで得られ、スケッチやセマンティックラベルなどのマルチモーダル入力(テキスト付き)に基づく画像生成および操作に内在的に対応可能です。テキスト誘導型マルチモーダル合成を促進するため、実際の顔画像と対応するセマンティックセグメンテーションマップ、スケッチ、テキスト記述を含む大規模データセット「Multi-Modal CelebA-HQ」を提案しました。導入したデータセット上で実施した広範な実験により、本手法の優れた性能が確認されました。コードとデータは、https://github.com/weihaox/TediGAN で公開されています。