
要約
本稿では、テキストプロンプトから大規模かつインタラクティブな3D世界を自動生成できるシステム「WorldGen」を紹介する。本手法は、自然言語による記述を、即座に探索可能で完全にテクスチャ処理された環境へと変換し、標準的なゲームエンジン内で直ちに探索や編集が可能にする。大規模言語モデル(LLM)を用いたシーンレイアウト推論、手続き的生成、拡散ベースの3D生成、オブジェクト認識型シーン分解を統合することで、創造的意図と機能的な仮想空間の間のギャップを埋め、手動モデリングや専門的な3D技術を必要とせずに一貫性があり、ナビゲート可能な世界の設計を可能にする。WorldGenは完全にモジュール構造を採用しており、レイアウト、スケール、スタイルに対する細かい制御が可能であり、幾何学的に整合性があり、視覚的に豊かでリアルタイムレンダリングに効率的な世界を生成する。本研究は、大規模なアクセシブルな生成型世界構築への一歩を示しており、ゲーム、シミュレーション、没入型ソーシャル環境などにおける3D生成AIの前線を前進させるものである。