Command Palette
Search for a command to run...

要約
4Dワールドモデリングという分野——空間的な幾何構造と時間的な動的変化を統合的に捉えることを目的としている——は、近年、大規模な生成モデルおよびマルチモーダル学習の進展により、著しい進歩を遂げてきた。しかし、真に汎用的な4Dワールドモデルの開発は、依然として高品質なデータの不足という根本的な制約に直面している。既存のデータセットやベンチマークは、4D幾何再構成、将来予測、カメラ制御型動画生成といった重要なタスクを支えるために必要な動的複雑性、多領域の多様性、空間時間的アノテーションを十分に備えていないことが一般的である。このギャップを埋めるために、我々は4Dワールドモデリングを目的とした大規模・多領域・多モーダルなデータセット「OmniWorld」を提案する。OmniWorldは、新たに収集された「OmniWorld-Game」データセットと、多様な領域をカバーする複数のキュレート済み公開データセットから構成される。既存の合成データセットと比較して、OmniWorld-Gameはより豊かなモダリティカバレッジ、より大きなスケール、そしてより現実的な動的相互作用を提供する。このデータセットを基盤として、現在の最先端(SOTA)手法が複雑な4D環境をモデル化する際の限界を露呈する挑戦的なベンチマークを構築した。さらに、OmniWorld上で既存のSOTA手法をファインチューニングすることで、4D再構成および動画生成タスクにおいて顕著な性能向上が得られ、OmniWorldが訓練および評価の強力なリソースとして有効であることを強く裏付けた。今後、OmniWorldは汎用的な4Dワールドモデルの開発を加速する触媒となることを期待しており、最終的には機械が物理世界を包括的に理解する能力の向上に貢献するものと考えている。