2ヶ月前

Lift, Splat, Shoot: 任意のカメラリグからの画像を3Dに暗黙的に逆投影して符号化する

Philion, Jonah ; Fidler, Sanja
Lift, Splat, Shoot: 任意のカメラリグからの画像を3Dに暗黙的に逆投影して符号化する
要約

自動車の知覚の目的は、複数のセンサから意味的な表現を抽出し、それらを運動計画に利用可能な単一の「鳥瞰図」座標系に統合することである。本研究では、任意の数のカメラから得られる画像データに対して直接的にシーンの鳥瞰図表現を抽出する新しいエンドツーエンドアーキテクチャを提案する。当方針の中心的な考え方は、各カメラごとに個々の画像を特徴量ピラミッド(frustum)に「引き上げ(lift)」てから、すべてのピラミッドをラスタライズされた鳥瞰図グリッドに「スプラット(splat)」することである。全カメラ装置で訓練を行うことで、当モデルが画像表現だけでなく、すべてのカメラからの予測を単一かつ連続的なシーン表現に統合する方法を学習できること、そしてキャリブレーション誤差に対する堅牢性を持つことを示す証拠を提供している。標準的な鳥瞰図タスク(物体セグメンテーションやマップセグメンテーションなど)において、当モデルは全てのベースラインおよび先行研究を上回る性能を発揮した。運動計画における密な表現学習を目指して、当モデルによって推論された表現がネットワーク出力の鳥瞰図コストマップへ「射出(shoot)」されるテンプレート軌道を使用して解釈可能なエンドツーエンド運動計画を可能にする点についても示している。また、LiDARから得られるオラクル深度を使用するモデルと比較したベンチマーク結果も報告する。プロジェクトページ(コード付き): https://nv-tlabs.github.io/lift-splat-shoot 。

Lift, Splat, Shoot: 任意のカメラリグからの画像を3Dに暗黙的に逆投影して符号化する | 最新論文 | HyperAI超神経