
要約
ノイズ除去拡散確率モデル(Denoising Diffusion Probabilistic Models)は、最近、最先端の生成性能を示し、強力なピクセルレベルの表現学習者として活用されてきた。本論文では、拡散モデルに内在する生成能力と表現学習能力の相互関係を解明する。我々は、従来の拡散モデルで用いられる加法的ガウスノイズの代わりにマスキング機構を採用した、スケーラブルな自己教師付き表現学習モデル「マスクド拡散モデル(Masked Diffusion Model, MDM)」を提案する。提案手法は、従来のベンチマークを明確に上回り、特に少数ショット(few-shot)状況において、医療画像および自然画像のセマンティックセグメンテーションタスクにおいて顕著な進展を示した。