Eingabestörung reduziert die Expositionsverzerrung in Diffusionsmodellen

Denoising Diffusion Probabilistic Models haben eine beeindruckende Generationsqualität gezeigt, wobei jedoch ihre lange Sampling-Kette zu hohen Rechenkosten führt. In diesem Paper beobachten wir, dass eine lange Sampling-Kette zudem zu einem Fehlerakkumulationsphänomen führt, das dem Exposure-Bias-Problem bei autoregressiven Textgenerierungsmodellen ähnelt. Genauer gesagt stellen wir fest, dass ein Diskrepanz zwischen Training und Test besteht: Während das Training auf den Ground-Truth-Samples bedingt ist, basiert der Test auf den zuvor generierten Ergebnissen. Um dieses Problem zu mildern, schlagen wir eine sehr einfache, jedoch effektive Trainingsregularisierung vor, die darin besteht, die Ground-Truth-Samples zu stören, um die Vorhersagefehler während der Inferenz zu simulieren. Experimentell zeigen wir, dass die vorgeschlagene Eingabestörung die Stichprobenqualität signifikant verbessert, ohne Recall und Precision zu beeinträchtigen, und gleichzeitig sowohl die Trainings- als auch die Inferenzzeiten reduziert. Beispielsweise erreichen wir auf CelebA 64×64 einen neuen SOTA-FID-Score von 1,27, wobei gleichzeitig 37,5 % der Trainingszeit eingespart werden. Der Quellcode ist öffentlich unter https://github.com/forever208/DDPM-IP verfügbar.