Street TryOn: Lernen von In-the-Wild-Virtual-Try-On aus ungepaarten Personenbildern

Die meisten Forschungsarbeiten im Bereich des virtuellen Anprobierens sind darauf ausgerichtet, die Modebranche durch die Erzeugung von Bildern zu unterstützen, die Kleidungsstücke auf Studio-Modellen kostengünstig demonstrieren. Allerdings sollte das virtuelle Anprobieren ein breiteres Anwendungsspektrum abdecken, das es Kunden ermöglicht, Kleidungsstücke anhand eigener Alltagsszenen (sogenannte „in-the-wild“-Anprobungen) auf sich selbst zu visualisieren. Leider erzielen bestehende Methoden, die für Studio-Setting sinnvolle Ergebnisse liefern, im „in-the-wild“-Kontext nur schlechte Leistungen. Dies liegt daran, dass diese Methoden oft Paarbild-Daten (Kleidungsstück-Bilder, die mit Bildern von Personen, die dasselbe Kleidungsstück tragen, verknüpft sind), zur Trainingsphase erfordern. Während solche Paarbild-Daten in Shopping-Websites für Studio-Szenarien leicht erhältlich sind, sind sie für Alltagsszenen schwer zu beschaffen.In dieser Arbeit schließen wir diese Lücke, indem wir (1) eine neue Benchmark namens StreetTryOn vorstellen, die die Entwicklung von „in-the-wild“-virtuellen Anprobungen unterstützt, und (2) eine neuartige Methode vorschlagen, die das virtuelle Anprobieren direkt aus einer Menge von Alltagspersonenbildern lernt, ohne auf Paarbild-Daten angewiesen zu sein. Wir bewältigen die spezifischen Herausforderungen – wie das Verzerrung von Kleidungsstücken an unterschiedlichere menschliche Posen und die realistische Darstellung komplexer Hintergründe – mittels einer innovativen DensePose-Verzerrungskorrektur in Kombination mit diffusionbasiertem bedingtem Inpainting. Unsere Experimente zeigen konkurrenzfähige Ergebnisse bei klassischen Studio-Anprobungsaufgaben sowie SOTA-Leistung bei Straßenanprobung und cross-domain-Anprobungsaufgaben.