TryOffDiff: Virtuelles Ausprobieren durch hochgenaue Kleidungskonstruktion mit Diffusionsmodellen

Dieses Papier stellt Virtual Try-Off (VTOFF) vor, eine neuartige Aufgabe, die sich auf die Generierung standardisierter Kleidungsbilder aus einzelnen Fotos von Menschen mit Kleidung konzentriert. Im Gegensatz zu traditionellen Virtual Try-On (VTON)-Methoden, die Modelle digital ankleiden, zielt VTOFF darauf ab, ein kanonisches Kleidungsbild zu extrahieren, was besondere Herausforderungen bei der Erfassung der Form, Textur und komplexer Muster von Kleidungsstücken mit sich bringt. Dieses präzise Ziel macht VTOFF besonders effektiv zur Bewertung der Rekonstruktionsgenauigkeit in generativen Modellen. Wir präsentieren TryOffDiff, ein Modell, das Stable Diffusion durch visuelle Bedingungen auf Basis von SigLIP anpasst, um hohe Genauigkeit und Detailtreue zu gewährleisten. Experimente mit einem modifizierten VITON-HD-Datensatz zeigen, dass unser Ansatz Basismethoden basierend auf Pose-Übertragung und virtueller Anprobierung überlegen ist und dies mit weniger Vor- und Nachbearbeitungsschritten erreicht. Unsere Analyse ergibt, dass traditionelle Bildgenerationsmetriken die Rekonstruktionsqualität unzureichend bewerten, weshalb wir uns auf DISTS für eine genauere Bewertung stützen müssen. Unsere Ergebnisse unterstreichen das Potenzial von VTOFF zur Verbesserung von Produktbildern in E-Commerce-Anwendungen, zur Weiterentwicklung der Evaluierung generativer Modelle und zur Inspiration zukünftiger Arbeiten im Bereich der hochgenauen Rekonstruktion. Demo, Code und Modelle sind unter folgender Adresse verfügbar: https://rizavelioglu.github.io/tryoffdiff/