11日前

Matrix-3D:全方位探索可能な3D世界生成

Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
Matrix-3D:全方位探索可能な3D世界生成
要約

単一の画像またはテキストプロンプトから探索可能な3D世界を生成することは、空間的知能の基盤をなすものである。近年の研究では、動画モデルを活用することで、広範囲かつ汎用的な3D世界生成が実現されている。しかし、既存の手法は生成されるシーンの範囲が限定的であるという課題を抱えている。本研究では、条件付き動画生成とパノラマ3D再構成を統合することで、広範囲かつ全方位的な探索可能な3D世界生成を実現するフレームワーク「Matrix-3D」を提案する。まず、シーンメッシュのレンダリングを条件として用いるトラジェクトリーガイド付きパノラマ動画拡散モデルを訓練し、高品質かつ幾何学的に整合性のあるシーン動画の生成を可能にする。次に、パノラマシーン動画を3D世界に昇華するため、以下の2つの別々の手法を提案する:(1) 速やかな3Dシーン再構成を実現する前向き型の大規模パノラマ再構成モデル、および (2) 高精度かつ詳細な3Dシーン再構成を実現する最適化ベースのパイプライン。効果的な学習を促進するため、深度情報およびトラジェクトリーアノテーションを備えた11.6万件の高品質な静止パノラマ動画シーケンスから構成される、世界初の大規模合成データセット「Matrix-Pano」も導入する。広範な実験により、本研究で提案するフレームワークが、パノラマ動画生成および3D世界生成において最先端の性能を達成することを実証した。詳細は https://matrix-3d.github.io をご参照ください。