HyperAIHyperAI

Command Palette

Search for a command to run...

FitDiT: Die Authentischen Kleidungsdetails für eine hochgenaue Virtuelle Anprobe verbessern

Boyuan Jiang Xiaobin Hu Donghao Luo Qingdong He Chengming Xu Jinlong Peng Jiangning Zhang Chengjie Wang Yunsheng Wu Yanwei Fu

Zusammenfassung

Obwohl die bildbasierte virtuelle Anprobierung erhebliche Fortschritte gemacht hat, stoßen neuere Ansätze immer noch auf Herausforderungen bei der Erstellung hochauflösender und robusten Anpassungsbilder in verschiedenen Szenarien. Diese Methoden ringen häufig mit Problemen wie texturbewusster Erhaltung und größenbewusster Anpassung, die ihre Gesamteffizienz beeinträchtigen. Um diese Einschränkungen zu überwinden, schlagen wir eine neue Technik zur Verbesserung der Kleidungswahrnehmung vor, die als FitDiT bezeichnet wird und für eine hochauflösende virtuelle Anprobierung konzipiert ist. Dabei werden Diffusionstransformer (DiT) eingesetzt, um mehr Parameter und Aufmerksamkeit auf hochaufgelöste Merkmale zu legen.Zunächst, um die texturbewusste Erhaltung weiter zu verbessern, führen wir einen Kleidungstextur-Extraktor ein, der durch die Evolution von Kleidungs-Priors optimiert wird, um die Kleidungsmerkmale fein abzustimmen. Dies erleichtert das bessere Erfassen reicher Details wie Streifen, Muster und Text. Zudem integrieren wir das Frequenzbereichs-Lernen durch den Einsatz eines angepassten Frequenzdistanzverlusts (frequency distance loss), um hochfrequente Kleidungsdetails zu verstärken.Um das Problem der größenbewussten Anpassung anzugehen, verwenden wir eine dilatierte-relaxierte Maskierungsstrategie, die sich an die korrekte Länge der Kleidungsstücke anpasst. Dies verhindert die Generierung von Kleidungsstücken, die während des Cross-Kategorie-Anprobens den gesamten Maskierungsraum ausfüllen. Mit diesen Designmerkmalen übertrifft FitDiT alle Baseline-Methoden sowohl in qualitativen als auch in quantitativen Bewertungen. Es zeichnet sich durch die Fähigkeit aus, gut sitzende Kleidungsstücke mit fotorealistischen und komplexen Details zu erzeugen und erreicht nach dem Schlankheitsprozess des DiT-Strukturs wettbewerbsfähige Inferenzzeiten von 4,57 Sekunden für ein einzelnes Bild mit einer Auflösung von 1024x768 Pixeln, was bestehende Methoden übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp