
要約
本稿では、単一の画像から4D(すなわち動的3D)シーン表現を生成するための、初めての前向き型(feed-forward)フレームワーク「4DNeX」を提案する。既存の手法が計算コストの高い最適化に依存しているか、あるいは複数フレームの動画入力を必要としているのに対し、4DNeXは事前学習済みの動画拡散モデルを微調整することで、効率的かつエンドツーエンドで画像から4D表現への変換を実現する。具体的には、1)4Dデータの不足を緩和するため、先進的な再構成手法を用いて高品質な4Dアノテーションを生成した大規模データセット「4DNeX-10M」を構築した。2)RGBとXYZの時系列を統合的にモデル化する統一的な6D動画表現を導入し、外観と幾何構造の両方について構造的な学習を可能にした。3)事前学習済みの動画拡散モデルを4Dモデリングに再利用するための、シンプルでありながら効果的な適応戦略を提案した。4DNeXは高品質な動的点群を生成し、新視点からの動画合成を可能にする。広範な実験により、4DNeXが既存の4D生成手法に比べて効率性および汎化能力において優れていることが実証され、画像から4D表現へのスケーラブルな解決策を提供するとともに、動的シーンの進化をシミュレートする生成型4Dワールドモデルの基盤を築いた。