2ヶ月前

UPGPT: ユニバーサル拡散モデルによる人物画像の生成、編集、およびポーズ転送

Soon Yau Cheong; Armin Mustafa; Andrew Gilbert

要約

テキストから画像生成モデル（T2I）であるStableDiffusionは、高品質な人物画像を生成するために使用されてきました。しかし、生成プロセスのランダム性のため、同じテキストプロンプトを使用しても、人物の外見（姿勢、顔、服装など）が異なることがあります。この外見の一貫性の欠如により、T2Iはポーズ転送には適していないという問題があります。本研究では、この課題に対処するため、テキスト、ポーズ、および視覚的なプロンプトを受け入れるマルチモーダル拡散モデルを提案します。当社のモデルは、人物画像の生成、ポーズ転送、マスクなし編集を一括で行う最初の統合手法です。また、低次元3Dボディモデルパラメータを直接使用して新たな機能を示す先駆的な取り組みとして、人物の外見を維持しながら同時にポーズとカメラビューの補間を行うことを実現しています。