HyperAIHyperAI

Command Palette

Search for a command to run...

SciRE-Solver: Beschleunigung der Sampling-Prozesse von Diffusionsmodellen durch einen Score-Integranden-Löser mit rekursivem Unterschied

Shigui Li Wei Chen Delu Zeng

Zusammenfassung

Diffusionsmodelle (DMs) haben erhebliche Fortschritte in den Bereichen Bild-, Audio- und Videogenerierung erzielt. Ein Nachteil von DMs ist ihr langsamer iterativer Prozess. Neuere Algorithmen zur beschleunigten Sampling-Generierung werden aus der Perspektive von Differentialgleichungen entwickelt. Allerdings wird die Schätzung der Ableitung der Score-Funktion bei höherordentlichen Algorithmen auf Basis der Taylor-Entwicklung aufgrund der Komplexität großer, gut trainierter neuronaler Netze unpraktikabel. Aus diesem Anlass führen wir in dieser Arbeit die rekursive Differenz (Recursive Difference, RD)-Methode ein, um die Ableitung der Score-Funktion im Kontext von DMs effizient zu berechnen. Aufbauend auf der RD-Methode und der abgeschnittenen Taylor-Entwicklung des Score-Integranden, schlagen wir SciRE-Solver vor, einen Algorithmus mit Garantie für Konvergenzordnung, der das Sampling von DMs beschleunigt. Um die Wirksamkeit der RD-Methode weiter zu untersuchen, entwickeln wir außerdem eine Variante namens SciREI-Solver, die auf der RD-Methode und einem exponentiellen Integrator basiert. Unsere vorgeschlagenen Sampling-Algorithmen, die die RD-Methode nutzen, erreichen im Vergleich zu bestehenden training-free Sampling-Methoden state-of-the-art (SOTA) FID-Werte sowohl bei diskretzeitlichen als auch bei kontinuierlichzeitlichen vortrainierten DMs, unabhängig von der Anzahl der Auswertungen der Score-Funktion (NFE). Besonders bemerkenswert ist, dass SciRE-Solver mit einer geringen Anzahl von NFEs (z. B. 100) ein hervorragendes Potenzial zeigt, die FID-Werte einiger vortrainierter Modelle zu übertreffen, die in ihren Originalarbeiten mit mindestens 1000 NFEs erreicht wurden. Beispielsweise erzielen wir auf CIFAR-10 eine SOTA-FID von 2,40 bei 100 NFE für kontinuierlichzeitliche DMs und von 3,15 bei 84 NFE für diskretzeitliche DMs. Auf CelebA 64×64 erreichen wir eine SOTA-FID von 2,17 (2,02) bei 18 (50) NFE für diskretzeitliche DMs.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp