Maximale-Wahrscheinlichkeits-Schätzung für scorebasierte Diffusionsmodelle

Score-basierte Diffusionsmodelle erzeugen Stichproben durch Umkehrung eines stochastischen Prozesses, der Daten in Rauschen diffundiert, und werden durch Minimierung einer gewichteten Kombination von Score-Matching-Verlusten trainiert. Die Log-Wahrscheinlichkeit score-basierter Diffusionsmodelle kann aufgrund einer Verbindung zu kontinuierlichen Normalisierungsflüssen effizient berechnet werden, wird jedoch nicht direkt durch die gewichtete Kombination von Score-Matching-Verlusten optimiert. Wir zeigen, dass für eine spezifische Gewichtungsschema das Zielfunktional eine obere Schranke für die negative Log-Wahrscheinlichkeit darstellt, was eine annähernde Maximum-Likelihood-Schätzung für score-basierte Diffusionsmodelle ermöglicht. Empirisch beobachten wir, dass die Maximum-Likelihood-Schätzung die Log-Wahrscheinlichkeit dieser Modelle konsistent auf mehreren Datensätzen, stochastischen Prozessen und Modellarchitekturen verbessert. Unsere besten Modelle erreichen negative Log-Wahrscheinlichkeiten von 2,83 und 3,76 Bit/Dimension auf CIFAR-10 und ImageNet 32x32 ohne jegliche Datenverstärkung und liegen damit auf dem Niveau der state-of-the-art autoregressiven Modelle für diese Aufgaben.