6ヶ月前

概要

拡散ベースの生成モデルは、視覚的に印象的な合成能力を示してきたが、同時に尤度に基づくモデルとしても優れた性能を発揮できるだろうか？本研究はこの問いに肯定的な答えを示し、標準的な画像密度推定ベンチマークにおいて最先端の尤度性能を達成する拡散ベースの生成モデルの族を提案する。他の拡散モデルとは異なり、本手法はモデルの他の部分と同時にノイズスケジュールの効率的な最適化を可能にする。本研究では、変分下界（VLB）が拡散データの信号対ノイズ比（SNR）に関して極めて簡潔な表現に簡略化されることを示し、このモデルクラスに対する理論的理解を深めている。この知見を基に、文献に提案された複数のモデル間の等価性を証明する。さらに、連続時間におけるVLBがノイズスケジュールの変更に対して、端点における信号対ノイズ比を除いて不変であることを示す。この性質を活用することで、得られるVLB推定器の分散を最小化するノイズスケジュールを学習可能となり、最適化の速度が向上する。これらの理論的進展を、アーキテクチャの改良と組み合わせることで、長年にわたりこれらのベンチマークを支配してきた自己回帰モデルを上回る最先端の尤度性能を達成した。また、最適化の速度もしばしば大幅に向上した。さらに、本モデルをビットバック圧縮スキームの一部として利用する方法を示し、理論上の最適値に近い無損失圧縮率を実現することを実証した。コードは https://github.com/google-research/vdm で公開されている。

ソースPDF