GS-Occ3D:ガウススプラッティングを用いた視覚のみによる占有再構成のスケーリング

占有状態(Occupancy)は自動運転において極めて重要であり、認識(perception)および計画(planning)に不可欠な幾何学的事前知識を提供する。しかし、従来の手法は主にLiDARに基づく占有状態ラベルに依存しており、スケーラビリティに制限が生じ、膨大な量の潜在的なクラウドソーシングデータを自動ラベリングに活用できないという課題がある。この問題に対処するため、本研究では視覚(vision)のみを用いたスケーラブルなフレームワーク「GS-Occ3D」を提案する。この手法は、占有状態を直接再構成することを目的としている。視覚のみによる占有状態再構成は、視点の稀疏性、動的なシーン要素、重度の遮蔽、長時間にわたる運動といった課題を抱える。既存の視覚ベース手法は主にメッシュ表現に依存しているが、これには幾何形状の不完全性や追加の後処理が必要であり、スケーラビリティに制約が生じる。これらの課題を克服するため、GS-Occ3DはOctreeに基づくガウスサーフェル表現を用いて明示的な占有状態表現を最適化し、効率性とスケーラビリティを確保している。さらに、シーンを静的背景、地面、動的物体に分解し、それぞれに適したモデリング戦略を適用する:(1)地面は主要な構造的要素として明示的に再構成され、大範囲における一貫性が著しく向上する;(2)動的車両は別個にモデル化され、運動に関連する占有パターンをより正確に捉えることが可能になる。Waymoデータセットを用いた広範な実験により、GS-Occ3Dが最先端の幾何再構成性能を達成することが示された。多様な都市シーンから収集した視覚のみによるバイナリ占有状態ラベルを活用することで、Occ3D-Waymoにおける下流の占有モデルへの有効性、およびOcc3D-nuScenesにおける優れたゼロショット一般化性能を実証した。本研究は、大規模な視覚ベース占有状態再構成が、スケーラブルな自動ラベリングの新たなパラダイムとしての可能性を示している。プロジェクトページ:this https URL