写実的な仮想試着のための適応的画像コンテンツ生成・保持手法

画像ビジュアルトライオンは、ターゲットの衣類画像を参照人物に移し替えることを目的としており、近年、注目を集めているトピックである。従来の手法は、衣類画像の特徴(たとえばテクスチャ、ロゴ、刺繍など)を、任意の人体ポーズに変形する際に保持することに焦点を当てていた。しかし、参照人物に大きな奥行き遮蔽(occlusion)や複雑なポーズが含まれる場合、写実的なトライオン画像を生成することは依然として大きな課題である。この問題に対処するため、本研究では新たなビジュアルトライオンネットワーク、すなわち「適応的コンテンツ生成・保持ネットワーク(Adaptive Content Generating and Preserving Network: ACGPN)」を提案する。ACGPNは、まずトライオン後に変化する参照画像のセマンティックレイアウト(例:長袖シャツ→腕、腕→ジャケット)を予測し、その予測結果に基づいて各領域の画像コンテンツが生成されるべきか、それとも保持されるべきかを判断する。このアプローチにより、写実性に優れ、豊かな衣類ディテールを再現可能なトライオン画像の生成が可能となる。ACGPNは一般的に3つの主要モジュールから構成される。第一に、セマンティックレイアウト生成モジュールは、参照画像のセマンティックセグメンテーションを用いて、トライオン後の目標セマンティックレイアウトを段階的に予測する。第二に、衣類変形モジュールは、生成されたセマンティックレイアウトに従って衣類画像を変形する。この過程において、学習中の変形安定性を高めるために、二階差分制約(second-order difference constraint)を導入している。第三に、コンテンツ融合モジュール(インペイントモジュール)は、参照画像、セマンティックレイアウト、変形された衣類画像といったすべての情報を統合し、人体の各セマンティック部位に対して適応的に画像コンテンツを生成する。最先端手法と比較して、ACGPNはより優れた知覚品質と豊かな微細ディテールを備えた写実的なトライオン画像を生成することができる。