Voost: Ein einheitlicher und skalierbarer Diffusions-Transformer für bidirektionales virtuelles Ausprobieren und Zurückgeben

Virtual Try-On zielt darauf ab, ein realistisches Bild einer Person zu generieren, die ein bestimmtes Kleidungsstück trägt. Die genaue Modellierung der Beziehung zwischen Kleidungsstück und Körper bleibt jedoch eine anhaltende Herausforderung, insbesondere unter Berücksichtigung von Pose- und Erscheinungsvariationen. In diesem Artikel stellen wir Voost vor – einen einheitlichen und skalierbaren Rahmen, der Virtual Try-On und Try-Off gemeinsam mit einem einzigen Diffusions-Transformer lernt. Durch die gemeinsame Modellierung beider Aufgaben ermöglicht Voost, dass jedes Kleidungsstück-Person-Paar beide Richtungen gegenseitig supervidiert und eine flexible Bedingung für die Generierungsrichtung sowie die Kleidungskategorie unterstützt. Dadurch wird die relationalen Schlussfolgerungen zwischen Kleidungsstücken und Körpern verbessert, ohne auf tiefenabhängige Netzwerke, Hilfsverlustfunktionen oder zusätzliche Labels angewiesen zu sein. Zudem führen wir zwei Techniken zur Inferenzzeit ein: die Skalierung der Aufmerksamkeits-Temperatur zur Robustheit gegenüber Änderungen der Auflösung oder Maske sowie die selbstkorrigierende Stichprobenziehung, die die bidirektionale Konsistenz zwischen den Aufgaben nutzt. Umfangreiche Experimente zeigen, dass Voost sowohl auf Try-On- als auch auf Try-Off-Benchmarks Ergebnisse auf dem Stand der Technik erzielt und konsistent starke Baselines in Bezug auf Alignierungsgenauigkeit, visuelle Fidelität und Generalisierung übertrifft.