Command Palette
Search for a command to run...
3DreamBooth:高忠実度3D被写体駆動型動画生成モデル
3DreamBooth:高忠実度3D被写体駆動型動画生成モデル
Hyun-kyu Ko Jihyeon Park Younghyun Kim Dongheok Park Eunbyung Park
概要
没入型 VR/AR、バーチャルプロダクション、次世代 e コマースなど、多様な新興アプリケーションにおいて、カスタマイズされた被写体の動的かつ視覚的に一貫した動画生成は強く求められています。しかし、被写体駆動型動画生成の急速な進展にもかかわらず、既存の手法は主に被写体を 2 次元エンティティとして扱い、単一視点の視覚的特徴やテキストプロンプトを通じて同一性を転写することに焦点を当てています。現実世界の被写体は本質的に 3 次元であるため、これらの 2 次元中心のアプローチを 3 次元オブジェクトのカスタマイズに適用すると、根本的な限界が露呈します。すなわち、3 次元幾何形状を再構築するために必要な包括的な空間的事前知識(spatial priors)が欠如しているのです。その結果、新規視点の合成時に、見えない領域に対して真の 3 次元同一性を保持するのではなく、妥当だが恣意的な詳細を生成せざるを得なくなります。多視点動画データセットの不足により、真の 3 次元認識型カスタマイズの実現は依然として課題です。限られた動画シーケンスでモデルをファインチューニングしようとする試みもありますが、これはしばしば時間的過学習(temporal overfitting)を招きます。これらの課題を解決するため、本研究では 3DreamBooth と 3Dapter から構成される、3 次元認識型動画カスタマイズのための新規フレームワークを導入します。3DreamBooth は、1 フレーム最適化パラダイムを通じて空間幾何形状と時間的運動を分離します。更新を空間表現に限定することで、包括的な動画ベースのトレーニングを必要とせず、モデルに堅牢な 3 次元事前知識を効果的に定着(bake)させることが可能となります。微細なテクスチャの向上と収束の加速を図るため、視覚条件付けモジュールである 3Dapter を統合しました。単一視点での事前学習に続き、3Dapter は非対称な条件付け戦略を介して、主要な生成ブランチと多視点共同最適化を受けます。この設計により、同モジュールは動的な選択的ルーターとして機能し、最小限の参照セットから視点固有の幾何学的ヒントをクエリすることが可能になります。プロジェクトページ:https://ko-lani.github.io/3DreamBooth/