17日前
入力摂動が拡散モデルにおける露出バイアスを低減する
Mang Ning, Enver Sangineto, Angelo Porrello, Simone Calderara, Rita Cucchiara

要約
ノイズ除去拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、優れた生成品質を示している一方で、長いサンプリングチェーンにより高い計算コストを伴うという課題を抱えています。本論文では、長大なサンプリングチェーンが誤差蓄積現象を引き起こすことを観察し、これは自己回帰的テキスト生成における「露出バイアス(exposure bias)」問題と類似していることを指摘します。具体的には、学習フェーズでは真のサンプル(ground truth)に条件付けられているのに対し、推論フェーズでは以前に生成された結果に条件付けられるという、学習と推論の間での不一致が原因であると認識しました。この問題を緩和するために、推論時に発生する予測誤差を模倣するため、真のサンプルに摂動(perturbation)を加えるという、非常にシンプルかつ効果的な学習正則化手法を提案します。実験的に、再現率(recall)と精度(precision)に影響を与えることなく、提案手法がサンプル品質を顕著に向上させるとともに、学習時間と推論時間の両方を削減できることを示しました。例えば、CelebA 64×64データセットにおいて、新たなSOTA(State-of-the-Art)となるFIDスコア1.27を達成しつつ、学習時間を37.5%削減しました。本研究のコードは、https://github.com/forever208/DDPM-IP にて公開されています。