2ヶ月前

視覚ベースの3Dセマンティック占有予測の三視点モデル

Yuanhui Huang; Wenzhao Zheng; Yunpeng Zhang; Jie Zhou; Jiwen Lu

要約

現代の視覚中心的な自動運転認識手法では、3Dシーンを描写するために鳥瞰図（BEV）表現が広く採用されています。ボクセル表現よりも効率的である一方で、単一の平面でシーンの詳細な3D構造を描写することが困難です。この問題に対処するため、私たちはBEVに2つの追加の垂直面を組み合わせた三視点（TPV）表現を提案します。3D空間内の各点は、3つの面上での投影特徴量の合計によってモデル化されます。画像特徴量を3D TPV空間に昇華させるために、さらにトランスフォーマーに基づくTPVエンコーダ（TPVFormer）を提案し、TPV特徴量を効果的に取得します。各TPV面における各クエリに対応する画像特徴量を集約するために、注意メカニズムを利用しています。実験結果は、私たちのモデルが疎な監督のもとで全ボクセルの意味的占有状態を効果的に予測できることを示しています。初めてカメラ入力のみを使用してLiDARセグメンテーションタスクにおいてLiDARベースの手法と同等の性能が達成可能であることをnuScenesデータセット上で証明しました。コード: https://github.com/wzzheng/TPVFormer.