vor 2 Monaten

UPGPT: Universelles Diffusionsmodell für die Generierung, Bearbeitung und Pose-Übertragung von Personbildern

Soon Yau Cheong; Armin Mustafa; Andrew Gilbert

Abstract

Text-to-Image-Modelle (T2I) wie StableDiffusion werden verwendet, um hochwertige Bilder von Menschen zu generieren. Aufgrund des zufälligen Charakters des Generierungsprozesses weist die dargestellte Person jedoch trotz der Verwendung des gleichen Textanweises eine unterschiedliche Erscheinung auf, beispielsweise in Haltung, Gesicht und Kleidung. Diese Inkonsistenzen in der Erscheinung machen T2I für Poseübertragungen ungeeignet. Wir beheben dies durch den Vorschlag eines multimodalen Diffusionsmodells, das Text, Pose und visuelle Anweisungen akzeptiert. Unser Modell ist die erste einheitliche Methode, die alle Aufgaben im Bereich der Personenbildgenerierung – Erzeugung, Poseübertragung und maskenlose Bearbeitung – durchführt. Zudem pionieren wir die direkte Verwendung von 3D-Körpermodellen mit geringer Dimensionalität, um eine neue Fähigkeit zu demonstrieren: die gleichzeitige Interpolation von Pose und Kameraperspektive unter Beibehaltung der Erscheinung des Menschen.