Command Palette
Search for a command to run...
InfGen:スケーラビリティを考慮した解像度無差別な画像生成パラダイム
InfGen:スケーラビリティを考慮した解像度無差別な画像生成パラダイム
Tao Han Wanghan Xu Junchao Gong Xiaoyu Yue Song Guo Luping Zhou Lei Bai
概要
任意解像度画像生成は、デバイス間で一貫した視覚体験を提供し、制作者および消費者の両方に広範な応用が可能である。現在の拡散モデルでは、解像度の増加に伴い計算負荷が二次関数的に増大するため、4K画像の生成に100秒以上の遅延が生じている。これを解決するため、我々は潜在空間拡散モデルの第二世代に着目し、拡散モデルによって生成される固定された潜在表現をコンテンツ表現とみなす。その上で、小さな潜在表現を用いて一ステップで任意解像度の画像を復号する生成器を提案する。これにより、VAEデコーダを新しい生成器に置き換えたInfGenを提案する。この手法により、拡散モデルの再学習を必要とせず、固定サイズの潜在表現から任意の解像度の画像を生成可能となる。このアプローチはプロセスを簡素化し、計算複雑度を低減するとともに、同一潜在空間を用いるあらゆるモデルに適用可能である。実験の結果、InfGenは多くの既存モデルを任意高解像度時代へと進化させるとともに、4K画像生成時間を10秒未満にまで短縮できることを示した。