RCBEVDet: 鳥瞰図におけるレーダーとカメラの融合による3次元物体検出

三次元物体検出は自動運転における重要な課題の一つです。実用化に向けたコスト削減のために、高価なLiDARセンサを低コストの多視点カメラで置き換えることが提案されています。しかし、カメラのみに依存することは、高精度かつ堅牢な三次元物体検出を達成することが困難です。この問題に対する効果的な解決策は、多視点カメラと経済的なミリ波レーダーセンサを組み合わせて、より信頼性の高いマルチモーダルな三次元物体検出を実現することです。本論文では、バードズアイビュー(BEV)でのレーダー・カメラ融合型三次元物体検出方法であるRCBEVDetを紹介します。具体的には、まずRadarBEVNetというレーダーBEV特徴量抽出ネットワークを設計しました。RadarBEVNetは、双方向ストリームのレーダーバックボーンとRCS(Radar Cross-Section)対応のBEVエンコーダから構成されています。双方向ストリームのレーダーバックボーンでは、ポイントベースのエンコーダとトランスフォーマーに基づくエンコーダが提案され、これら2つのエンコーダ間での通信を容易にするためのインジェクション・エクストラクションモジュールが設けられています。RCS対応のBEVエンコーダは、ポイント特徴量をBEVに散布する際にRCSを物体サイズの事前情報として利用します。さらに、デフォーム可能な注意メカニズムを使用して、レーダーとカメラからのマルチモーダルなBEV特徴量を自動的にアライメントするクロスアテンションマルチレイヤー融合モジュールを提示します。その後、チャネル融合層と空間融合層で特徴量を融合します。実験結果は、nuScenesおよびデルフト視点(VoD)3D物体検出ベンチマークにおいてRCBEVDetが新しい最先端のレーダー・カメラ融合結果を達成していることを示しています。さらに、RCBEVDetはすべてのリアルタイムカメラのみおよびレーダー・カメラ3D物体検出器よりも優れた3D検出結果を得ており、推論速度も21〜28 FPSで速くなっています。ソースコードはhttps://github.com/VDIGPKU/RCBEVDetで公開される予定です。