17時間前

概要

運転用ワールドモデルは、環境のダイナミクスをシミュレートすることで、自律運転において中核的な技術となっています。しかし、既存のアプローチは主に将来のシーン生成に焦点を当てており、包括的な3Dシーンの理解を軽視しがちです。一方で、大規模言語モデル（LLM）は優れた推論能力を発揮しますが、将来の幾何学的進化を予測する能力に欠け、意味解釈と物理シミュレーションの間に大きな隔たりが生じています。このギャップを埋めるため、私たちは3Dシーンの理解と将来の幾何学予測を単一のフレームワーク内に統合した統一型の運転用ワールドモデル「HERMES++」を提案します。私たちのアプローチは、シナジーのある設計を通じて、これらのタスクの異なる要件に対応します。まず、BEV表現がマルチビューの空間情報をLLMと互換性のある構造へ統合します。第二に、私たちは理解モジュールからの知識伝達を促進するLLM強化型ワールドクエリを導入します。第三に、時間的ギャップを埋めるためにCurrent-to-Future Linkを設計し、幾何学的進化にセマンティックな文脈を条件付けます。最後に、構造的完全性を確保するために、明示的な幾何学的制約と暗黙的な潜在正則化を統合するJoint Geometric Optimization戦略を採用し、内部表現を幾何学意識ありの事前知識と整合させます。複数のベンチマークにおける広範な評価は、本手法の有効性を裏付けています。HERMES++は強力なパフォーマンスを実現し、将来の点群予測および3Dシーン理解タスクの両において専門家向けのアプローチを上回っています。モデルおよびコードは https://github.com/H-EmbodVis/HERMESV2 で公開されます。

ソースPDF コードを表示