17日前

StyleGAN-T：GANの力を解き放つことで、高速かつ大規模なテキストから画像への合成を実現

Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila

要約

テキストから画像への合成技術は、近年、大規模な事前学習済み言語モデルや大規模な学習データ、および拡張性の高いモデル族（拡散モデルや自己回帰モデルなど）の導入により、著しい進展を遂げている。しかし、最も性能の高いモデルは、1枚の画像を生成するためには反復的な評価を必要とする。これに対して、生成的対抗ネットワーク（GAN）は単一の順伝播（forward pass）で生成が可能であり、その点でははるかに高速である。一方で、現在のGANは大規模なテキストから画像への合成における最先端技術にはまだ大きく遅れをとっている。本研究は、GANが再び競争力を回復させるために必要なステップを明らかにすることを目的としている。提案するモデル「StyleGAN-T」は、大規模なテキストから画像への合成に特有の要件、すなわち大容量、多様なデータセットにおける安定した学習、強固なテキストとの整合性、およびテキスト整合性と変動の制御性のトレードオフを適切に調整する能力を満たしている。StyleGAN-Tは従来のGANを大きく上回り、かつ高速なテキストから画像合成における過去の最先端技術である蒸留された拡散モデルを、生成画像の品質および処理速度の両面で上回っている。