1日前

次に視覚的粒度生成を実行する

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

要約

我々は、画像を空間分解能は同一だが、使用する固有トークン数が異なる要素からなる構造化シーケンスに分解するという新たなアプローチを提案する。これにより、視覚的な粒度（granularity）の異なるレベルを捉えることが可能となる。画像生成は、空の画像から開始し、全体のレイアウトから細部に至るまで段階的に精緻化する構造的なプロセスを遂行する、新しく導入した「次なる視覚的粒度（Next Visual Granularity: NVG）」生成フレームワークによって実現される。この反復的プロセスにより、階層的かつ層状の表現が符号化され、複数の粒度レベルにわたり生成プロセスに対する細かい制御が可能となる。本研究では、ImageNetデータセット上でクラス条件付き画像生成を目的として、一連のNVGモデルを学習し、明確なスケーリング特性が観察された。VARシリーズと比較して、NVGはFIDスコアにおいて一貫して優れた性能を示した（3.30 → 3.03、2.57 → 2.44、2.09 → 2.06）。さらに、NVGフレームワークの能力と潜在的可能性を示すため、広範な分析も実施した。本研究のコードおよびモデルは、公開予定である。