17日前

リレーディフュージョン:画像合成における解像度間の拡散プロセスを統合する

Jiayan Teng, Wendi Zheng, Ming Ding, Wenyi Hong, Jianqiao Wangni, Zhuoyi Yang, Jie Tang
リレーディフュージョン:画像合成における解像度間の拡散プロセスを統合する
要約

拡散モデルは画像合成において大きな成功を収めているが、高解像度画像の生成においても依然として課題を抱えている。離散コサイン変換(DCT)の観点から分析した結果、その主な原因是「高解像度画像においては、同じノイズレベルでも周波数領域における信号対ノイズ比(SNR)が高くなること」であることが明らかになった。本研究では、低解像度の画像またはノイズを、ぼかし拡散(blurring diffusion)とブロックノイズ(block noise)を用いて等価な高解像度表現に変換する「リレー拡散モデル(Relay Diffusion Model, RDM)」を提案する。これにより、新たな解像度やモデルに移行する際も、純粋なノイズから再スタートするか、低解像度の条件付けを行うことなく、拡散プロセスをスムーズに継続できる。RDMはCelebA-HQにおいて最先端のFIDスコア、ImageNet 256×256においても最先端のsFIDスコアを達成し、ADM、LDM、DiTなどの従来手法を大きく上回った。本研究のすべてのコードおよびモデルチェックポイントは、GitHubにて公開されている(https://github.com/THUDM/RelayDiffusion)。