17日前

高精細度画像生成のためのカスケード型拡散モデル

Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, Tim Salimans
高精細度画像生成のためのカスケード型拡散モデル
要約

本研究では、補助的な画像分類器を用いずに、クラス条件付きImageNet生成ベンチマークにおいて高忠実度の画像を生成できるように、段階的(カスケード)な拡散モデルの有効性を示す。段階的拡散モデルは、低解像度から高解像度へと段階的に画像を生成するパイプライン構造を有し、最低解像度では標準的な拡散モデルを用い、その後、一つ以上のスーパーレゾリューション拡散モデルが逐次的に画像の解像度を向上させ、より詳細な高解像度情報を追加する。我々は、この段階的パイプラインにおけるサンプル品質が、スーパーレゾリューションモデルに供給される低解像度条件入力に対するデータ拡張手法である「条件拡張(conditioning augmentation)」に大きく依存することを発見した。実験の結果、条件拡張により、段階的モデルにおけるサンプリング過程における誤差の累積を抑制でき、FIDスコアが64×64解像度で1.48、128×128で3.52、256×256で4.88に達する段階的パイプラインの学習が可能となった。これはBigGAN-deepを上回る性能であり、256×256解像度における分類精度もトップ1で63.02%、トップ5で84.06%を達成し、VQ-VAE-2をも上回る結果となった。