Bedingte Steuerung in Text-zu-Bild-Diffusionsmodelle einfügen

Wir präsentieren ControlNet, eine neuronale Netzwerkarchitektur, die räumliche Bedingungssteuerungen zu großen, vortrainierten Text-zu-Bild-Diffusionsmodellen hinzufügt. ControlNet fixiert die für den Einsatz bereiten großen Diffusionsmodelle und nutzt ihre tiefen und robusten Codierungsschichten, die mit Milliarden von Bildern vortrainiert wurden, als starken Rückgrat, um eine vielfältige Menge an bedingten Steuerungen zu erlernen. Die neuronale Architektur ist durch „Null-Konvolutionen“ (null-initialisierte Konvolutionschichten) verbunden, die die Parameter schrittweise von Null aus wachsen lassen und sicherstellen, dass keine schädlichen Rauschen das Feinjustierungsprozess beeinträchtigen können. Wir testen verschiedene Bedingungssteuerungen, wie zum Beispiel Kanten, Tiefe, Segmentierung, menschliche Pose usw., mit Stable Diffusion unter Verwendung einzelner oder mehrerer Bedingungen sowie mit oder ohne Prompts. Wir zeigen, dass das Training von ControlNets sowohl bei kleinen (<50k) als auch bei großen (>1m) Datensätzen robust ist. Ausführliche Ergebnisse deuten darauf hin, dass ControlNet möglicherweise eine breitere Anwendung zur Steuerung von Bild-Diffusionsmodellen erleichtern könnte.