11日前
RCM-Fusion:3次元物体検出のためのレーダー・カメラマルチレベル統合
Jisong Kim, Minjae Seong, Geonho Bang, Dongsuk Kum, Jun Won Choi

要約
LiDARセンサは3次元物体検出に成功裏に応用されてきたが、レーダーおよびカメラセンサのコストパフォーマンスの高さから、レーダーとカメラの融合による3次元物体検出への関心が高まっている。しかし、従来のレーダー-カメラ融合モデルは、レーダー情報の潜在能力を十分に活用できていなかった。本論文では、両モダリティを特徴レベルおよびインスタンスレベルの両方で融合することを試みる「レーダー-カメラマルチレベル融合(RCM-Fusion)」を提案する。特徴レベルの融合においては、レーダーの鳥瞰図(Bird's-Eye-View, BEV)特徴を用いてカメラ特徴を正確なBEV表現に変換し、レーダーとカメラのBEV特徴を統合する「レーダー誘導BEVエンコーダ」を提案する。インスタンスレベルの融合においては、レーダー点群の特性を考慮することで位置推定誤差を低減する「レーダーグリッドポイント精緻化モジュール」を提案する。公開データセットnuScenes上での実験により、本研究で提案するRCM-Fusionが、nuScenes 3次元物体検出ベンチマークにおける単フレームベースのレーダー-カメラ融合手法の中で、最先端の性能を達成することが実証された。コードは公開予定である。