HyperAIHyperAI

Command Palette

Search for a command to run...

StyleGAN-T:GANの力を解き放つことで、高速かつ大規模なテキストから画像への合成を実現

Axel Sauer Tero Karras Samuli Laine Andreas Geiger Timo Aila

概要

テキストから画像への合成技術は、近年、大規模な事前学習済み言語モデルや大規模な学習データ、および拡張性の高いモデル族(拡散モデルや自己回帰モデルなど)の導入により、著しい進展を遂げている。しかし、最も性能の高いモデルは、1枚の画像を生成するためには反復的な評価を必要とする。これに対して、生成的対抗ネットワーク(GAN)は単一の順伝播(forward pass)で生成が可能であり、その点でははるかに高速である。一方で、現在のGANは大規模なテキストから画像への合成における最先端技術にはまだ大きく遅れをとっている。本研究は、GANが再び競争力を回復させるために必要なステップを明らかにすることを目的としている。提案するモデル「StyleGAN-T」は、大規模なテキストから画像への合成に特有の要件、すなわち大容量、多様なデータセットにおける安定した学習、強固なテキストとの整合性、およびテキスト整合性と変動の制御性のトレードオフを適切に調整する能力を満たしている。StyleGAN-Tは従来のGANを大きく上回り、かつ高速なテキストから画像合成における過去の最先端技術である蒸留された拡散モデルを、生成画像の品質および処理速度の両面で上回っている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
StyleGAN-T:GANの力を解き放つことで、高速かつ大規模なテキストから画像への合成を実現 | 記事 | HyperAI超神経