Diffusionsmodell
Beim maschinellen LernenDiffusionsmodelle werden auch Diffusionswahrscheinlichkeitsmodelle oder scorebasierte generative Modelle genannt.Es handelt sich um eine Art generatives Modell mit latenten Variablen. Das Diffusionsmodell besteht aus drei Hauptteilen: dem Vorwärtsprozess, dem Rückwärtsprozess und dem Stichprobenprozess. Das Ziel von Diffusionsmodellen besteht darin, den Diffusionsprozess zu erlernen, der die Wahrscheinlichkeitsverteilung eines gegebenen Datensatzes erzeugt. Sie lernen die latente Struktur eines Datensatzes, indem sie die Art und Weise modellieren, wie sich Datenpunkte im latenten Raum verteilen.
Im Hinblick auf Computer Vision können Diffusionsmodelle auf eine Vielzahl von Aufgaben angewendet werden, darunter Bildentrauschung, Inpainting, Superauflösung und Bildgenerierung.Dabei wird normalerweise ein neuronales Netzwerk trainiert, um durch Gaußsches Rauschen verschwommene Bilder sequentiell zu entrauschen. Das Modell wird darauf trainiert, den Prozess der Rauschzugabe zu Bildern umzukehren. Nachdem das Training konvergiert, kann es zur Bildgenerierung verwendet werden. Dabei beginnt man mit Bildern, die aus zufälligem Rauschen bestehen, und lässt das Netzwerk diese iterativ entrauschen. Ein Beispiel hierfür ist das Text-zu-Bild-Modell DALL-E 2 von OpenAI, das Diffusionsmodelle sowohl für die Vorhersagen des Modells (Erstellen von Bildeinbettungen anhand einer Textbeschriftung) als auch für den Decoder verwendet, der das endgültige Bild generiert. Diffusionsmodelle finden seit kurzem Anwendung in der Verarbeitung natürlicher Sprache (NLP), insbesondere in Bereichen wie der Textgenerierung und -zusammenfassung.Beispiele für gängige Diffusionsmodellierungsrahmen, die in der Computervision verwendet werden, sind Rauschunterdrückungs-Diffusionswahrscheinlichkeitsmodelle, rauschkonditionierte Bewertungsnetzwerke und stochastische Differentialgleichungen.
Diffusionsmodelle sind von der Nichtgleichgewichtsthermodynamik inspiriert.Sie definieren eine Markow-Kette von Diffusionsschritten, um den Daten langsam zufälliges Rauschen hinzuzufügen, und lernen dann, den Diffusionsprozess umzukehren, um aus dem Rauschen die gewünschten Datenproben zu erstellen. Im Gegensatz zu VAE- oder Flussmodellen werden Diffusionsmodelle über ein festes Verfahren erlernt und die latenten Variablen haben eine hohe Dimensionalität (dieselbe wie die Originaldaten).
Verweise
【1】https://lilianweng.github.io/posts/2021-07-11-diffusion-models/