HyperAIHyperAI

Command Palette

Search for a command to run...

視覚ベースの3Dセマンティック占有予測の三視点モデル

Yuanhui Huang Wenzhao Zheng Yunpeng Zhang Jie Zhou Jiwen Lu

概要

現代の視覚中心的な自動運転認識手法では、3Dシーンを描写するために鳥瞰図(BEV)表現が広く採用されています。ボクセル表現よりも効率的である一方で、単一の平面でシーンの詳細な3D構造を描写することが困難です。この問題に対処するため、私たちはBEVに2つの追加の垂直面を組み合わせた三視点(TPV)表現を提案します。3D空間内の各点は、3つの面上での投影特徴量の合計によってモデル化されます。画像特徴量を3D TPV空間に昇華させるために、さらにトランスフォーマーに基づくTPVエンコーダ(TPVFormer)を提案し、TPV特徴量を効果的に取得します。各TPV面における各クエリに対応する画像特徴量を集約するために、注意メカニズムを利用しています。実験結果は、私たちのモデルが疎な監督のもとで全ボクセルの意味的占有状態を効果的に予測できることを示しています。初めてカメラ入力のみを使用してLiDARセグメンテーションタスクにおいてLiDARベースの手法と同等の性能が達成可能であることをnuScenesデータセット上で証明しました。コード: https://github.com/wzzheng/TPVFormer.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚ベースの3Dセマンティック占有予測の三視点モデル | 記事 | HyperAI超神経