2ヶ月前

RCBEVDet++: 高精度レーダー・カメラ融合3D認識ネットワークへ

Lin, Zhiwei ; Liu, Zhe ; Wang, Yongtao ; Zhang, Le ; Zhu, Ce

要約

周囲環境の認識は自動運転における基本的な課題である。高精度な認識結果を得るため、現代の自動運転システムでは通常、多様なセンサを用いて包括的な環境データを収集している。これらのセンサの中でも、レーダーとカメラを組み合わせたマルチモーダル感知システムが、優れた感測能力とコスト効率の高さから特に好まれている。しかし、レーダーセンサとカメラセンサ間の大きなモーダリティの違いは情報融合に難題をもたらす。この問題に対処するために、本論文ではRCBEVDetというレーダー-カメラ融合3次元物体検出フレームワークを提案する。具体的には、RCBEVDetは既存のカメラベース3次元物体検出器を基盤として開発され、特別に設計されたレーダー特徴抽出器RadarBEVNetとクロスアテンションマルチレイヤー融合（CAMF）モジュールが追加されている。まず、RadarBEVNetはデュアルストリームレーダーバックボーンとレーダー断面積（RCS）に配慮したBEVエンコーダを使用して、疎なレーダーポイントを密集した鳥瞰図（Bird's-Eye-View: BEV）特徴にエンコードする。次に、CAMFモジュールは変形可能な注意メカニズムを利用してレーダーとカメラのBEV特徴を合わせ、チャネルおよび空間融合層を採用してそれらを融合させる。さらにRCBEVDetの能力向上のために、RCBEVDet++を導入する。これはCAMFを通じて疎な融合を行い、クエリベースの多視点カメラ感知モデルをサポートし、より広範な感知タスクへの適応性を持つように改良されている。nuScenesデータセットでの広範な実験により、当方法が既存のカメラベース3次元感知モデルとシームレスに統合され、様々な感知タスクにおいて性能が向上することが示された。さらに当方法は3次元物体検出、BEVセマンティックセグメンテーション、3次元多重物体追跡タスクにおいて最先端のレーダー-カメラ融合結果を達成している。特にViT-Lを使用した場合、RCBEVDet++はテスト時の拡張やモデルアンサンブルなしで72.73 NDSおよび67.34 mAPの3次元物体検出性能を達成している。