Human-VDM: 動画から単一画像の3Dヒューマンガウススプラッティングを学習する拡散モデル

単一のRGB画像から現実的な3Dヒューマンを生成することは、コンピュータビジョンにおいて依然として困難な課題です。これは、幾何学的形状、高品質なテクスチャ、そして推定される非可視部分の正確なモデリングを必要とするためです。既存の手法は通常、マルチビュー拡散モデルを使用して3D生成を行いますが、これらはしばしば一貫性のないビューの問題に直面し、高品質な3Dヒューマン生成を妨げています。この課題に対処するため、私たちはHuman-VDMという新しい方法を提案します。これは、ビデオ拡散モデル(Video Diffusion Models)を使用して単一のRGB画像から3Dヒューマンを生成する手法です。Human-VDMは、ガウシアンスプラッティング(Gaussian Splatting)を使用することで3Dヒューマン生成に時間的に一貫したビューを提供します。このシステムは3つのモジュールで構成されています:ビューの一貫性を持つ人間ビデオ拡散モジュール、ビデオ強化モジュール、およびガウシアンスプラッティングモジュールです。まず、単一の画像が人間ビデオ拡散モジュールに入力され、一貫性のある人間ビデオが生成されます。次に、ビデオ強化モジュールがスーパーレゾリューションとビデオ補間を適用し、生成されたビデオのテクスチャと幾何学的滑らかさを向上させます。最後に、3Dヒューマングガウシアンスプラッティングモジュールがこれらの高解像度かつビューの一貫性を持つ画像に基づいて現実的な人間を学習します。実験結果は、Human-VDMが単一の画像から高品質な3Dヒューマンを生成できることを示しており、生成品質と数量において最先端の手法を超える性能を発揮しています。プロジェクトページ: https://human-vdm.github.io/Human-VDM/