LaCon: Späte-Beschränkung-Diffusion für steuerbare geführte Bildsynthese

Diffusionsmodelle haben beeindruckende Fähigkeiten bei der Erstellung fotorealistischer und kreativer Bilder gezeigt. Um mehr Kontrolle über den Generierungsprozess zu bieten, nutzen bestehende Studien, in diesem Artikel als Early-Constraint Methoden bezeichnet, zusätzliche Bedingungen und integrieren diese in vorab trainierte Diffusionsmodelle. Insbesondere verwenden einige von ihnen bedingungsspezifische Module, um die Bedingungen getrennt zu verarbeiten, wobei sie Schwierigkeiten haben, auf andere Bedingungen zu generalisieren. Obwohl nachfolgende Studien einheitliche Lösungen zur Bewältigung des Generalisierungsproblems präsentieren, erfordern diese ebenfalls zusätzliche Ressourcen zur Implementierung, z.B. zusätzliche Eingaben oder Parameteroptimierung. Es wird erwartet, dass flexiblere und effizientere Lösungen für eine steuerbare geführte Bildsynthese leistungsfähiger sind. In diesem Artikel stellen wir ein alternatives Paradigma vor, nämlich Late-Constraint Diffusion (LaCon), das verschiedene Bedingungen gleichzeitig in vorab trainierte Diffusionsmodelle integriert. Speziell schafft LaCon eine Ausrichtung zwischen externer Bedingung und internen Merkmalen der Diffusionsmodelle und nutzt diese Ausrichtung, um die Zielbedingung zu integrieren und den Stichprozess so zu leiten, dass maßgeschneiderte Ergebnisse produziert werden. Experimentelle Ergebnisse am COCO-Datensatz verdeutlichen die Effektivität und die überlegene Generalisierungsfähigkeit von LaCon unter verschiedenen Bedingungen und Einstellungen. Abstraktionsstudien untersuchen die Funktionalitäten verschiedener Komponenten von LaCon und illustrieren dessen großes Potenzial als effiziente Lösung zur Bereitstellung flexibler Steuerbarkeit für Diffusionsmodelle.