Vereinen und erobern: Plug & Play-Multimodale Synthese mit Diffusionsmodellen

Die Erstellung von Fotos, die mehreren Bedingungen genügen, findet im Content-Erstellungssektor eine breite Anwendung. Ein wesentlicher Hindernis bei der Durchführung dieser Aufgabe ist das Bedürfnis nach gepaarten Daten, die alle Modalitäten (d.h., Bedingungen) und deren entsprechende Ausgaben umfassen. Darüber hinaus müssen bestehende Methoden mit gepaarten Daten über alle Modalitäten neu trainiert werden, um eine neue Bedingung einzuführen. In dieser Arbeit schlagen wir eine Lösung für dieses Problem vor, die auf denoising diffusion probabilistischen Modellen (DDPMs) basiert. Unser Motiv, Diffusionsmodelle gegenüber anderen generativen Modellen zu bevorzugen, stammt aus der flexiblen internen Struktur der Diffusionsmodelle. Da jeder Sampling-Schritt in einem DDPM einer Gauß-Verteilung folgt, zeigen wir, dass es eine geschlossene Formel zur Generierung eines Bildes unter verschiedenen Bedingungen gibt. Unsere Methode kann mehrere Diffusionsmodelle vereinen, die auf verschiedenen Unter-Aufgaben trainiert wurden, und die kombinierte Aufgabe durch unsere vorgeschlagene Sampling-Strategie bewältigen. Wir führen außerdem einen neuen Zuverlässigkeitsparameter ein, der es ermöglicht, verschiedene fertige Diffusionsmodelle zu verwenden, die auf verschiedenen Datensätzen trainiert wurden, um während des Samplings das gewünschte Ergebnis zu erzielen, das mehreren Bedingungen gerecht wird. Wir führen Experimente an verschiedenen standardmäßigen multimodalen Aufgaben durch, um die Effektivität unserer Methode zu demonstrieren. Weitere Details finden Sie unter https://nithin-gk.github.io/projectpages/Multidiff/index.html