Subjekt-konsistente und posevielfältige Text-zu-Bild-Generierung

Subjekt-konsistente Generierung (SCG), die darauf abzielt, eine konsistente Subjektidentität über verschiedene Szenen hinweg zu gewährleisten, bleibt für Text-zu-Bild (T2I) Modelle eine Herausforderung. Bestehende trainingsfreie SCG-Methoden erreichen oft Konsistenz auf Kosten von Layout- und Pose-Vielfalt, was den expressiven visuellen Erzählstil behindert. Um diese Einschränkung zu beheben, schlagen wir einen subjekt-konsistenten und pose-diversen T2I-Rahmen vor, der als CoDi bezeichnet wird und konsistente Subjektgenerierung mit diverser Pose und Layout ermöglicht. Inspiriert durch die progressive Natur des Diffusionsprozesses, bei dem grobe Strukturen früh entstehen und feine Details später verfeinert werden, verwendet CoDi eine zweistufige Strategie: Identitätsübertragung (IT) und Identitätsverfeinerung (IR). IT wird in den frühen Entrauschungsschritten angewendet, indem optimale Übertragung verwendet wird, um Identitätsmerkmale auf jede Zielbildpose bewusst zu übertragen. Dies fördert die Subjekt-Konsistenz gleichzeitig mit der Erhaltung der Pose-Vielfalt. IR wird in den späteren Entrauschungsschritten eingesetzt, indem die auffälligsten Identitätsmerkmale ausgewählt werden, um die Subjektdetails weiter zu verfeinern. Ausführliche qualitative und quantitative Ergebnisse zur Subjekt-Konsistenz, Pose-Vielfalt und Prompt-Treue zeigen, dass CoDi sowohl eine bessere visuelle Wahrnehmung als auch eine stärkere Leistung in allen Metriken erzielt. Der Code ist unter https://github.com/NJU-PCALab/CoDi verfügbar.