17日前

テキストから画像生成へのGANのスケーリング

Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park

要約

テキストから画像を生成する技術の最近の成功は、世界中を驚かせ、一般大衆の想像力をかき立てた。技術的な観点から見ても、生成画像モデルの設計において、主流となるアーキテクチャに劇的な変化がもたらされた。かつてはStyleGANをはじめとする技術を用いたGAN（生成対抗ネットワーク）が、実質的な選択肢として広く用いられていた。しかしDALL-E 2の登場により、自己回帰モデルおよび拡散モデルが一気に大規模生成モデルの新しい標準となった。この急速な移行が引き起こす根本的な問いは、「StyleGANのようなGANアーキテクチャを、LAIONのような大規模データセットを活用できるようにスケーリングできるのか？」という点である。本研究では、StyleGANアーキテクチャの容量を単純に増大させても、すぐに安定性を失うことを明らかにした。そこで、この限界を大幅に超える新たなGANアーキテクチャ「GigaGAN」を提案する。GigaGANは、テキストから画像を生成する手法としてGANが依然として有効であることを実証している。GigaGANの主な利点は以下の3点である。第一に、推論時の速度が桁違いに高速であり、512ピクセルの画像を生成するのにわずか0.13秒で完了する。第二に、高解像度画像の生成が可能であり、たとえば16メガピクセルの画像を3.66秒で合成できる。第三に、潜在空間の編集が多様に可能で、潜在変数間の補間、スタイルの混合、ベクトル演算といった応用が実現できる。