
本研究では、無制限3Dシーンを生成する非条件型生成モデル「SceneDreamer」を提案する。このモデルは、ランダムなノイズから大規模な3Dランドスケープを合成する能力を有している。SceneDreamerのフレームワークは、3Dラベル付きデータを一切用いずに、自然界に存在する2D画像データセットのみから学習される。SceneDreamerの中心となる学習枠組みは、以下の3つの要素から構成される:1)効率的かつ表現力豊かな3Dシーン表現、2)生成的なシーンパラメータ化手法、3)2D画像から得られる知識を活用可能な効果的なレンダリング機構である。本手法は、単純なノイズ(simplex noise)から生成される効率的な鳥瞰図(Bird’s-Eye-View, BEV)表現を出発点としている。このBEV表現には、地表面の高さを表す高さフィールドと、詳細なシーン意味情報を含むセマンティックフィールドが含まれる。このBEV表現により、以下の3つの利点が得られる:1)3Dシーンを二次時間計算量(quadratic complexity)で表現可能、2)幾何学的構造と意味情報の分離(disentangled)が実現、3)効率的な学習が可能となる。さらに、3D位置情報とシーンのセマンティック情報を基に、潜在空間をパラメータ化するための新規な生成的ニューラルハッシュグリッドを提案する。この手法により、さまざまなシーンに一般化可能な特徴を効果的に符号化することを目的としている。最後に、敵対的学習(adversarial training)により2D画像データセットから学習されたニューラルボリュメトリックレンダラを用いて、写実的な画像を生成する。広範な実験により、SceneDreamerの有効性が実証され、従来の最先端手法と比較して、鮮やかかつ多様な無限大の3D世界を生成する能力において優れた性能を示した。