HyperAIHyperAI

Command Palette

Search for a command to run...

Eingabestörung reduziert die Expositionsverzerrung in Diffusionsmodellen

Mang Ning Enver Sangineto Angelo Porrello Simone Calderara Rita Cucchiara

Zusammenfassung

Denoising Diffusion Probabilistic Models haben eine beeindruckende Generationsqualität gezeigt, wobei jedoch ihre lange Sampling-Kette zu hohen Rechenkosten führt. In diesem Paper beobachten wir, dass eine lange Sampling-Kette zudem zu einem Fehlerakkumulationsphänomen führt, das dem Exposure-Bias-Problem bei autoregressiven Textgenerierungsmodellen ähnelt. Genauer gesagt stellen wir fest, dass ein Diskrepanz zwischen Training und Test besteht: Während das Training auf den Ground-Truth-Samples bedingt ist, basiert der Test auf den zuvor generierten Ergebnissen. Um dieses Problem zu mildern, schlagen wir eine sehr einfache, jedoch effektive Trainingsregularisierung vor, die darin besteht, die Ground-Truth-Samples zu stören, um die Vorhersagefehler während der Inferenz zu simulieren. Experimentell zeigen wir, dass die vorgeschlagene Eingabestörung die Stichprobenqualität signifikant verbessert, ohne Recall und Precision zu beeinträchtigen, und gleichzeitig sowohl die Trainings- als auch die Inferenzzeiten reduziert. Beispielsweise erreichen wir auf CelebA 64×64 einen neuen SOTA-FID-Score von 1,27, wobei gleichzeitig 37,5 % der Trainingszeit eingespart werden. Der Quellcode ist öffentlich unter https://github.com/forever208/DDPM-IP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp