HyperAI超神経
12時間前

HunyuanWorld 1.0:言語またはピクセルから没入型で探索可能かつインタラクティブな3D世界を生成する

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, et al
HunyuanWorld 1.0:言語またはピクセルから没入型で探索可能かつインタラクティブな3D世界を生成する
要約

テキストや画像から没入型かつプレイ可能な3D世界を生成することは、コンピュータビジョンおよびグラフィックス分野における根本的な課題の一つである。既存の世界生成手法は、主に二つのカテゴリに分類される。一つは動画に基づく手法であり、豊かな多様性を提供するが、3Dの整合性やレンダリング効率に欠ける。もう一つは3Dに基づく手法であり、幾何学的な整合性は保証されるものの、訓練データの限界やメモリ効率の低い表現形式といった課題を抱えている。こうした課題を克服するため、本研究では、テキストおよび画像条件から没入型で探索可能かつインタラクティブな3Dシーンを生成するための新規フレームワーク「HunyuanWorld 1.0」を提案する。本手法の特徴は以下の三つである:1)パノラマ型ワールドプロキシを用いた360°の没入体験;2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能;3)分離されたオブジェクト表現による拡張されたインタラクティビティ。本フレームワークの核となるのは、パノラマ画像を360°のワールドプロキシとして用いることで、意味情報に配慮した世界の分解と再構成を可能にする、意味的に階層化された3Dメッシュ表現である。これにより、多様な3D世界の生成が実現される。広範な実験の結果、本手法は一貫性があり、探索可能かつインタラクティブな3D世界の生成において最先端の性能を達成するとともに、バーチャルリアリティ、物理シミュレーション、ゲーム開発、インタラクティブコンテンツ制作など、多様な応用分野への展開が可能であることが示された。