
要約
拡散モデル(Diffusion models)は、多くの状況下でGAN(Generative Adversarial Networks)を上回る高精細な画像生成性能を示す強力な手法として注目を集めている。しかし、その訓練および推論速度の遅さが大きなボトルネックとなっており、リアルタイム応用への活用を阻んでいる。近年提案されたDiffusionGAN手法は、サンプリングステップ数を数千ステップから数ステップに削減することで、モデルの実行時間を大幅に短縮したが、依然としてGANの性能には大きく及ばない。本研究では、新たなウェーブレットベースの拡散スキームを提案することで、この速度差を縮小することを目指す。具体的には、ウェーブレット分解を用いて画像レベルおよび特徴量レベルの低周波成分と高周波成分を抽出し、それらを適応的に処理することで高速化を実現しつつ、優れた生成品質を維持する。さらに、モデルの訓練収束を効果的に促進するための再構成項(reconstruction term)の導入も提案する。CelebA-HQ、CIFAR-10、LSUN-Church、STL-10の4つのデータセットにおける実験結果から、本手法がリアルタイムかつ高精細な拡散モデル実現への道筋を示すものであることが確認された。本研究のコードおよび事前学習済みチェックポイントは、\url{https://github.com/VinAIResearch/WaveDiff.git}にて公開されている。