
要約
テキストから画像生成モデル(T2I)であるStableDiffusionは、高品質な人物画像を生成するために使用されてきました。しかし、生成プロセスのランダム性のため、同じテキストプロンプトを使用しても、人物の外見(姿勢、顔、服装など)が異なることがあります。この外見の一貫性の欠如により、T2Iはポーズ転送には適していないという問題があります。本研究では、この課題に対処するため、テキスト、ポーズ、および視覚的なプロンプトを受け入れるマルチモーダル拡散モデルを提案します。当社のモデルは、人物画像の生成、ポーズ転送、マスクなし編集を一括で行う最初の統合手法です。また、低次元3Dボディモデルパラメータを直接使用して新たな機能を示す先駆的な取り組みとして、人物の外見を維持しながら同時にポーズとカメラビューの補間を行うことを実現しています。