11日前

野生環境下における本物感のあるバーチャルトライオンのための拡散モデルの改善

Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, Jinwoo Shin
野生環境下における本物感のあるバーチャルトライオンのための拡散モデルの改善
要約

本論文では、人物画像と衣類画像のペアを入力として、その人物がカスタマイズされた衣類を着ている様子をレンダリングする画像ベースの仮想試着(image-based virtual try-on)を扱う。従来の手法は、生成画像の自然さを向上させるために、既存の例示ベースの補間拡散モデル(exemplar-based inpainting diffusion models)を仮想試着に応用していたが、これによりGANベースの手法と比較して視覚的質は向上したものの、衣類のアイデンティティの保持には失敗していた。この課題を克服するために、本研究では衣類の忠実度(garment fidelity)を向上させ、本物に近い仮想試着画像を生成する新たな拡散モデルを提案する。本手法は「IDM-VTON」と命名し、衣類画像の意味情報を二つの異なるモジュールで符号化する。拡散モデルの基本となるUNet構造において、1) 視覚エンコーダから抽出された高レベルな意味情報をクロスアテンション層に統合し、2) 並列的なUNetから抽出された低レベル特徴をセルフアテンション層に統合する。さらに、生成画像の本物らしさを高めるために、衣類および人物画像に対して詳細なテキストプロンプトを提示する。最後に、人物と衣類の画像ペアを用いたカスタマイズ手法を提示し、これにより忠実度と本物らしさが顕著に向上することを実証した。実験結果から、本手法は従来の拡散モデルおよびGANベースの手法を上回り、衣類の細部を良好に保持しつつ、質的・量的に本物に近い仮想試着画像を生成することが確認された。また、提案するカスタマイズ手法が実世界のシナリオにおいても有効性を示している。詳細な可視化結果は、プロジェクトページにて確認可能である:https://idm-vton.github.io

野生環境下における本物感のあるバーチャルトライオンのための拡散モデルの改善 | 最新論文 | HyperAI超神経