HyperAIHyperAI

Command Palette

Search for a command to run...

UPGPT: Universelles Diffusionsmodell für die Generierung, Bearbeitung und Pose-Übertragung von Personbildern

Soon Yau Cheong; Armin Mustafa; Andrew Gilbert

Zusammenfassung

Text-to-Image-Modelle (T2I) wie StableDiffusion werden verwendet, um hochwertige Bilder von Menschen zu generieren. Aufgrund des zufälligen Charakters des Generierungsprozesses weist die dargestellte Person jedoch trotz der Verwendung des gleichen Textanweises eine unterschiedliche Erscheinung auf, beispielsweise in Haltung, Gesicht und Kleidung. Diese Inkonsistenzen in der Erscheinung machen T2I für Poseübertragungen ungeeignet. Wir beheben dies durch den Vorschlag eines multimodalen Diffusionsmodells, das Text, Pose und visuelle Anweisungen akzeptiert. Unser Modell ist die erste einheitliche Methode, die alle Aufgaben im Bereich der Personenbildgenerierung – Erzeugung, Poseübertragung und maskenlose Bearbeitung – durchführt. Zudem pionieren wir die direkte Verwendung von 3D-Körpermodellen mit geringer Dimensionalität, um eine neue Fähigkeit zu demonstrieren: die gleichzeitige Interpolation von Pose und Kameraperspektive unter Beibehaltung der Erscheinung des Menschen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp