2ヶ月前

StackGAN: テキストから写実的な画像合成へのスタック型生成対抗ネットワークの応用

Han Zhang; Tao Xu; Hongsheng Li; Shaoting Zhang; Xiaogang Wang; Xiaolei Huang; Dimitris Metaxas
StackGAN: テキストから写実的な画像合成へのスタック型生成対抗ネットワークの応用
要約

テキスト記述から高品質な画像を合成することは、コンピュータビジョンにおける難問であり、多くの実用的な応用があります。既存のテキストから画像への変換手法で生成されたサンプルは、与えられた記述の意味を大まかに反映できますが、必要な詳細や生き生きとした物体部分を含むことができません。本論文では、テキスト記述に基づいて256x256の写真のようなリアルさを持つ画像を生成するためのスタック型ジェネレーティブアドバーザリネットワーク(StackGAN)を提案します。問題をより扱いやすい部分問題に分解するために、スケッチ洗練プロセスを使用します。第1段階のGANは、与えられたテキスト記述に基づいて物体の基本的な形状と色をスケッチし、低解像度の第1段階画像を生成します。第2段階のGANは、第1段階の結果とテキスト記述を入力として受け取り、写真のような詳細を持つ高解像度画像を生成します。この過程では、第1段階結果の欠陥を修正し、説得力のある詳細を追加することができます。合成画像の多様性を向上させるとともに条件付きGANの学習を安定させるために、潜在条件多様体における滑らかさを促進する新しいコンディショニング拡張技術(Conditioning Augmentation)を導入しました。ベンチマークデータセットでの広範な実験と最先端技術との比較により、提案手法がテキスト記述に基づく写真のようなリアルさを持つ画像生成において大幅な改善を達成していることが示されています。

StackGAN: テキストから写実的な画像合成へのスタック型生成対抗ネットワークの応用 | 最新論文 | HyperAI超神経