要約
最近提案された画像ベースの仮試着(VTON: Virtual Try-On Network)手法は、多様な人体ポーズや衣類スタイルに対応する上でいくつかの課題を抱えている。第一に、衣類の歪みを生成するネットワークは、衣類に依存しない人体表現の誤り、衣類と人体のマッチングに用いる入力画像の不整合、および不適切な正則化変換パラメータの影響により、著しく歪みが生じたり、正確な位置合わせが行われなかったりする。第二に、ブレンドネットワークは、人体表現の誤りや合成マスク生成のための不適切な学習損失関数のため、元の衣類の残り部分を適切に保持できず、結果として不自然な合成が生じる場合がある。本研究では、衣類の形状とテクスチャを保つことを目的としたCP-VTON+(Clothing shape and texture Preserving VTON)を提案する。この手法は、定量的および定性的な観点から、従来の最先端手法を大きく上回る性能を示す。