Command Palette
Search for a command to run...
Vanast: Virtuelles Anprobieren durch Human Image Animation mittels synthetischer Triplet-Supervision
Vanast: Virtuelles Anprobieren durch Human Image Animation mittels synthetischer Triplet-Supervision
Hyunsoo Cha Wonjung Woo Byungjun Kim Hanbyul Joo
Zusammenfassung
Da Sie mich gebeten haben, die Übersetzung in deutscher Sprache zu verfassen (obwohl die Zielvorgabe des Ausgangstextes eine Übersetzung ins Chinesische war), habe ich den Text gemäß Ihren professionellen Standards für technologische Fachübersetzungen ins Deutsche übertragen.Hier ist die professionelle Übersetzung des Textes:Wir präsentieren Vanast, ein einheitliches Framework, das durch die Kombination eines einzelnen menschlichen Bildes, von Kleidungsstücken sowie eines Pose-Guidance-Videos direkt Animationen von Menschen mit übertragenen Kleidungsstücken (Garment-Transfer) generiert. Herkömmliche Zwei-Stufen-Pipelines behandeln das bildbasierte virtuelle Anprobieren (Virtual Try-on) und die Pose-gesteuerte Animation als separate Prozesse, was häufig zu Identitätsdrift (Identity Drift), Verzerrungen der Kleidung und Inkonsistenzen zwischen Vorder- und Rückseite führt. Unser Modell adressiert diese Probleme, indem es den gesamten Prozess in einem einzigen, einheitlichen Schritt durchführt, um eine kohärente Synthese zu erreichen.Um dieses Setting zu ermöglichen, konstruieren wir eine groß angelegte Triplet-Supervision. Unsere Data-Generation-Pipeline umfasst die Erstellung von identitätserhaltenden menschlichen Bildern in alternativen Outfits, die von den Katalogbildern der Kleidungsstücke abweichen, das Erfassen vollständiger Triplets aus Ober- und Unterbekleidung, um die Einschränkung durch einzelne Kleidungsstück-Pose-Videopaare zu überwinden, sowie das Zusammenstellen vielfältiger „In-the-wild“-Triplets, ohne auf Katalogbilder der Kleidung angewiesen zu sein.Darüber hinaus führen wir eine Dual Module-Architektur für Video-Diffusion-Transformer ein, um das Training zu stabilisieren, die prätrainierte generative Qualität zu bewahren und die Genauigkeit der Kleidung, die Pose-Adhärenz sowie die Identitätserhaltung zu verbessern, während gleichzeitig eine Zero-Shot-Interpolation von Kleidungsstücken unterstützt wird. Zusammen ermöglichen diese Beiträge Vanast die Erzeugung von hochpräzisen, identitätskonsistenten Animationen über eine breite Palette von Kleidungsstilen hinweg.