Verbesserte Techniken zur Maximum-Likelihood-Schätzung für Diffusions-ODEs

Diffusionsmodelle haben in verschiedenen Domänen hervorragende Leistungen gezeigt. Die Wahrscheinlichkeitsstrom-Ordinäre Differentialgleichung (ODE) von Diffusionsmodellen (d. h. Diffusions-ODEs) stellt einen speziellen Fall kontinuierlicher Normalisierungsflüsse (CNFs) dar und ermöglicht deterministische Inferenz sowie exakte Likelihood-Auswertung. Dennoch liegen die Ergebnisse der Likelihood-Schätzung durch Diffusions-ODEs noch deutlich hinter denen der state-of-the-art likelihood-basierten Generativmodelle zurück. In dieser Arbeit stellen wir mehrere verbesserte Techniken für die Maximum-Likelihood-Schätzung bei Diffusions-ODEs vor, sowohl aus Sicht der Trainings- als auch der Evaluierungsperspektive. Für das Training schlagen wir eine Geschwindigkeits-Parameterisierung vor und untersuchen Varianzreduktions-Techniken zur beschleunigten Konvergenz. Zudem leiten wir ein fehlerbeschränktes, hochordentliches Fluss-Matching-Ziel für das Feintuning ab, das die ODE-Likelihood verbessert und die Trajektorie glättet. Für die Evaluierung präsentieren wir einen neuartigen, trainingsfreien Ansatz zur truncierten-normalen Dequantisierung, um die üblicherweise bestehende Lücke zwischen Training und Evaluierung bei Diffusions-ODEs zu schließen. Aufbauend auf diesen Techniken erreichen wir state-of-the-art Ergebnisse bei der Likelihood-Schätzung auf Bild-Datensätzen (2,56 auf CIFAR-10, 3,43/3,69 auf ImageNet-32) ohne Verwendung von variationaler Dequantisierung oder Datenaugmentation, sowie 2,42 auf CIFAR-10 mit Datenaugmentation. Der Quellcode ist unter \url{https://github.com/thu-ml/i-DODE} verfügbar.