概要

画像ベースのバーチャル試着技術は大きな進歩を遂げていますが、新規アプローチは多様なシナリオにおいて高忠実度かつ堅牢なフィッティング画像の生成に依然として課題を抱えています。これらの手法は、テクスチャ認識の維持やサイズ認識のフィッティングなどの問題にしばしば直面しており、全体的な効果性を阻害しています。これらの制限に対処するため、我々は高忠実度バーチャル試着のためにDiffusion Transformers (DiT) を用いて高解像度特徴に多くのパラメータと注意を割り当てる新しい衣料品知覚強化技術であるFitDiTを提案します。まず、テクスチャ認識の維持をさらに改善するために、衣料品テクスチャ抽出器を導入します。この抽出器は衣料品事前知識の進化を取り入れて衣料品特徴を微調整し、ストライプ、パターン、テキストなどの豊かな詳細をよりよく捉えることを可能にします。さらに、周波数ドメイン学習を導入し、カスタマイズされた周波数距離損失関数を使用して高周波数の衣料品詳細を強化します。次に、サイズ認識のフィッティング問題に対処するために、拡大緩和マスク戦略を採用します。この戦略は衣料品の正しい長さに適応し、クロスカテゴリ試着時のマスク領域全体が衣料品で埋められるのを防ぎます。以上の設計により、FitDiTは定性的評価と定量的評価の両面で全ての基準モデルを超えており、写真現実的で複雑な詳細を持つフィットした衣料品の生成において優れています。また、DiT構造のスリム化後でも1024x768ピクセルの単一画像に対して4.57秒という競争力のある推論時間を達成しており、既存手法よりも優れた性能を発揮しています。

ソースPDF