SciRE-Solver: Beschleunigung der Sampling-Prozesse von Diffusionsmodellen durch einen Score-Integranden-Löser mit rekursivem Unterschied

Diffusionsmodelle (DMs) haben erhebliche Fortschritte in den Bereichen Bild-, Audio- und Videogenerierung erzielt. Ein Nachteil von DMs ist ihr langsamer iterativer Prozess. Neuere Algorithmen zur beschleunigten Sampling-Generierung werden aus der Perspektive von Differentialgleichungen entwickelt. Allerdings wird die Schätzung der Ableitung der Score-Funktion bei höherordentlichen Algorithmen auf Basis der Taylor-Entwicklung aufgrund der Komplexität großer, gut trainierter neuronaler Netze unpraktikabel. Aus diesem Anlass führen wir in dieser Arbeit die rekursive Differenz (Recursive Difference, RD)-Methode ein, um die Ableitung der Score-Funktion im Kontext von DMs effizient zu berechnen. Aufbauend auf der RD-Methode und der abgeschnittenen Taylor-Entwicklung des Score-Integranden, schlagen wir SciRE-Solver vor, einen Algorithmus mit Garantie für Konvergenzordnung, der das Sampling von DMs beschleunigt. Um die Wirksamkeit der RD-Methode weiter zu untersuchen, entwickeln wir außerdem eine Variante namens SciREI-Solver, die auf der RD-Methode und einem exponentiellen Integrator basiert. Unsere vorgeschlagenen Sampling-Algorithmen, die die RD-Methode nutzen, erreichen im Vergleich zu bestehenden training-free Sampling-Methoden state-of-the-art (SOTA) FID-Werte sowohl bei diskretzeitlichen als auch bei kontinuierlichzeitlichen vortrainierten DMs, unabhängig von der Anzahl der Auswertungen der Score-Funktion (NFE). Besonders bemerkenswert ist, dass SciRE-Solver mit einer geringen Anzahl von NFEs (z. B. 100) ein hervorragendes Potenzial zeigt, die FID-Werte einiger vortrainierter Modelle zu übertreffen, die in ihren Originalarbeiten mit mindestens 1000 NFEs erreicht wurden. Beispielsweise erzielen wir auf CIFAR-10 eine SOTA-FID von 2,40 bei 100 NFE für kontinuierlichzeitliche DMs und von 3,15 bei 84 NFE für diskretzeitliche DMs. Auf CelebA 64×64 erreichen wir eine SOTA-FID von 2,17 (2,02) bei 18 (50) NFE für diskretzeitliche DMs.