HyperAIHyperAI
vor 2 Monaten

FitDiT: Die Authentischen Kleidungsdetails für eine hochgenaue Virtuelle Anprobe verbessern

Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
FitDiT: Die Authentischen Kleidungsdetails für eine hochgenaue
  Virtuelle Anprobe verbessern
Abstract

Obwohl die bildbasierte virtuelle Anprobierung erhebliche Fortschritte gemacht hat, stoßen neuere Ansätze immer noch auf Herausforderungen bei der Erstellung hochauflösender und robusten Anpassungsbilder in verschiedenen Szenarien. Diese Methoden ringen häufig mit Problemen wie texturbewusster Erhaltung und größenbewusster Anpassung, die ihre Gesamteffizienz beeinträchtigen. Um diese Einschränkungen zu überwinden, schlagen wir eine neue Technik zur Verbesserung der Kleidungswahrnehmung vor, die als FitDiT bezeichnet wird und für eine hochauflösende virtuelle Anprobierung konzipiert ist. Dabei werden Diffusionstransformer (DiT) eingesetzt, um mehr Parameter und Aufmerksamkeit auf hochaufgelöste Merkmale zu legen.Zunächst, um die texturbewusste Erhaltung weiter zu verbessern, führen wir einen Kleidungstextur-Extraktor ein, der durch die Evolution von Kleidungs-Priors optimiert wird, um die Kleidungsmerkmale fein abzustimmen. Dies erleichtert das bessere Erfassen reicher Details wie Streifen, Muster und Text. Zudem integrieren wir das Frequenzbereichs-Lernen durch den Einsatz eines angepassten Frequenzdistanzverlusts (frequency distance loss), um hochfrequente Kleidungsdetails zu verstärken.Um das Problem der größenbewussten Anpassung anzugehen, verwenden wir eine dilatierte-relaxierte Maskierungsstrategie, die sich an die korrekte Länge der Kleidungsstücke anpasst. Dies verhindert die Generierung von Kleidungsstücken, die während des Cross-Kategorie-Anprobens den gesamten Maskierungsraum ausfüllen. Mit diesen Designmerkmalen übertrifft FitDiT alle Baseline-Methoden sowohl in qualitativen als auch in quantitativen Bewertungen. Es zeichnet sich durch die Fähigkeit aus, gut sitzende Kleidungsstücke mit fotorealistischen und komplexen Details zu erzeugen und erreicht nach dem Schlankheitsprozess des DiT-Strukturs wettbewerbsfähige Inferenzzeiten von 4,57 Sekunden für ein einzelnes Bild mit einer Auflösung von 1024x768 Pixeln, was bestehende Methoden übertrifft.

FitDiT: Die Authentischen Kleidungsdetails für eine hochgenaue Virtuelle Anprobe verbessern | Neueste Forschungsarbeiten | HyperAI