HyperAIHyperAI

Command Palette

Search for a command to run...

リレーディフュージョン:画像合成における解像度間の拡散プロセスを統合する

Jiayan Teng Wendi Zheng Ming Ding Wenyi Hong Jianqiao Wangni Zhuoyi Yang Jie Tang

概要

拡散モデルは画像合成において大きな成功を収めているが、高解像度画像の生成においても依然として課題を抱えている。離散コサイン変換(DCT)の観点から分析した結果、その主な原因是「高解像度画像においては、同じノイズレベルでも周波数領域における信号対ノイズ比(SNR)が高くなること」であることが明らかになった。本研究では、低解像度の画像またはノイズを、ぼかし拡散(blurring diffusion)とブロックノイズ(block noise)を用いて等価な高解像度表現に変換する「リレー拡散モデル(Relay Diffusion Model, RDM)」を提案する。これにより、新たな解像度やモデルに移行する際も、純粋なノイズから再スタートするか、低解像度の条件付けを行うことなく、拡散プロセスをスムーズに継続できる。RDMはCelebA-HQにおいて最先端のFIDスコア、ImageNet 256×256においても最先端のsFIDスコアを達成し、ADM、LDM、DiTなどの従来手法を大きく上回った。本研究のすべてのコードおよびモデルチェックポイントは、GitHubにて公開されている(https://github.com/THUDM/RelayDiffusion)


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています