
要約
バーチャルトライオンは、対象となる衣装画像を参照人物に移し替えることを目的としている。近年、著しい進展が見られつつあるが、既存の手法の適用範囲は依然として標準的な衣装(例:複雑なレースや破れ加工のないシンプルなシャツ)に限られており、オフショルダーのシャツやワードショルダーのドレスなど、多様で非標準的な衣装の複雑さと多様性はほとんど無視されている。本研究では、標準的および非標準的衣装の両方に対応するフルレンジのバーチャルトライオンを実現する、原理的なフレームワークである「再帰的三レベル変換(Recurrent Tri-Level Transform, RT-VTON)」を提案する。本フレームワークの設計に向けた重要な知見は以下の2点である:1)意味情報の転送には、衣装表現の三つの異なるレベル(衣装コード、ポーズコード、パーシングコード)に対して段階的な特徴変換が必要である。2)幾何形状の転送には、剛性と柔軟性の間で正則化された画像変形が求められる。まず、局所的なゲート付きアテンションと非局所的対応学習を用いて、三レベルの特徴コードを再帰的に精緻化することで、「トライオン後の人物」の意味情報を予測する。次に、衣装画像と予測された意味情報を整合させるため、半剛性変形を設計し、局所的な歪みの類似性を保持する。最後に、標準的なトライオン合成器により、処理済みのすべての情報を統合し、衣装を着た人物の画像を生成する。従来のベンチマークにおける広範な実験およびユーザースタディにより、本フレームワークが定量的・定性的な両面で最先端の性能を達成することが示された。特に、RT-VTONは多様な非標準衣装に対して優れた結果を示しており、その実用性と汎用性が顕著である。