HyperAIHyperAI

Command Palette

Search for a command to run...

テキストから画像生成へのGANのスケーリング

Minguk Kang Jun-Yan Zhu Richard Zhang Jaesik Park Eli Shechtman Sylvain Paris Taesung Park

概要

テキストから画像を生成する技術の最近の成功は、世界中を驚かせ、一般大衆の想像力をかき立てた。技術的な観点から見ても、生成画像モデルの設計において、主流となるアーキテクチャに劇的な変化がもたらされた。かつてはStyleGANをはじめとする技術を用いたGAN(生成対抗ネットワーク)が、実質的な選択肢として広く用いられていた。しかしDALL-E 2の登場により、自己回帰モデルおよび拡散モデルが一気に大規模生成モデルの新しい標準となった。この急速な移行が引き起こす根本的な問いは、「StyleGANのようなGANアーキテクチャを、LAIONのような大規模データセットを活用できるようにスケーリングできるのか?」という点である。本研究では、StyleGANアーキテクチャの容量を単純に増大させても、すぐに安定性を失うことを明らかにした。そこで、この限界を大幅に超える新たなGANアーキテクチャ「GigaGAN」を提案する。GigaGANは、テキストから画像を生成する手法としてGANが依然として有効であることを実証している。GigaGANの主な利点は以下の3点である。第一に、推論時の速度が桁違いに高速であり、512ピクセルの画像を生成するのにわずか0.13秒で完了する。第二に、高解像度画像の生成が可能であり、たとえば16メガピクセルの画像を3.66秒で合成できる。第三に、潜在空間の編集が多様に可能で、潜在変数間の補間、スタイルの混合、ベクトル演算といった応用が実現できる。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
テキストから画像生成へのGANのスケーリング | 記事 | HyperAI超神経