
要約
私たちはバイナリ拡散確率モデル(Binary Diffusion Probabilistic Model: BDPM)を紹介します。これは、バイナリデータ表現に最適化された新しい生成モデルです。ノイズ除去拡散確率モデル(Denoising Diffusion Probabilistic Models: DDPMs)は、画像合成や復元などのタスクで著しい成功を収めていますが、従来のDDPMは連続的なデータ表現と平均二乗誤差(Mean Squared Error: MSE)損失を使用して訓練され、ガウスノイズモデルが離散的またはバイナリデータ構造には最適ではない場合があります。BDPMはこの問題に対処するために、画像をビットプレーンに分解し、XORに基づくノイズ変換を用いています。また、バイナリクロスエントロピー損失を使用してノイズ除去モデルを訓練します。このアプローチにより、精密なノイズ制御と計算効率の高い推論が可能となり、計算コストを大幅に削減し、モデルの収束性を向上させます。画像超解像度、インペイント、盲目的画像復元などの画像復元タスクにおいて評価した結果、BDPMはFFHQ, CelebA, CelebA-HQデータセットで最先端の手法を上回りました。特に注目に値するのは、BDPMが従来のDDPMモデルよりも少ない推論ステップで最適な結果に到達できることであり、これにより推論効率の向上が示されています。