HyperAIHyperAI

Command Palette

Search for a command to run...

Subjekt-konsistente und posevielfältige Text-zu-Bild-Generierung

Zhanxin Gao Beier Zhu Liang Yao Jian Yang Ying Tai

Zusammenfassung

Subjekt-konsistente Generierung (SCG), die darauf abzielt, eine konsistente Subjektidentität über verschiedene Szenen hinweg zu gewährleisten, bleibt für Text-zu-Bild (T2I) Modelle eine Herausforderung. Bestehende trainingsfreie SCG-Methoden erreichen oft Konsistenz auf Kosten von Layout- und Pose-Vielfalt, was den expressiven visuellen Erzählstil behindert. Um diese Einschränkung zu beheben, schlagen wir einen subjekt-konsistenten und pose-diversen T2I-Rahmen vor, der als CoDi bezeichnet wird und konsistente Subjektgenerierung mit diverser Pose und Layout ermöglicht. Inspiriert durch die progressive Natur des Diffusionsprozesses, bei dem grobe Strukturen früh entstehen und feine Details später verfeinert werden, verwendet CoDi eine zweistufige Strategie: Identitätsübertragung (IT) und Identitätsverfeinerung (IR). IT wird in den frühen Entrauschungsschritten angewendet, indem optimale Übertragung verwendet wird, um Identitätsmerkmale auf jede Zielbildpose bewusst zu übertragen. Dies fördert die Subjekt-Konsistenz gleichzeitig mit der Erhaltung der Pose-Vielfalt. IR wird in den späteren Entrauschungsschritten eingesetzt, indem die auffälligsten Identitätsmerkmale ausgewählt werden, um die Subjektdetails weiter zu verfeinern. Ausführliche qualitative und quantitative Ergebnisse zur Subjekt-Konsistenz, Pose-Vielfalt und Prompt-Treue zeigen, dass CoDi sowohl eine bessere visuelle Wahrnehmung als auch eine stärkere Leistung in allen Metriken erzielt. Der Code ist unter https://github.com/NJU-PCALab/CoDi verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Subjekt-konsistente und posevielfältige Text-zu-Bild-Generierung | Paper | HyperAI