11日前
CRAFT:空間的文脈融合Transformerを用いたカメラ・レーダー連携3Dオブジェクト検出
Youngseok Kim, Sanmin Kim, Jun Won Choi, Dongsuk Kum

要約
カメラセンサおよびレーダーセンサは、LiDARに比べてコスト、信頼性、保守性において顕著な利点を有している。既存の融合手法は、単一モダリティの出力を結果レベルで統合する「ラテ・フュージョン(後期融合)」戦略を採用していることが多く、これにより市販の単一センサ検出アルゴリズムを活用できる利点がある。しかし、ラテ・フュージョンではセンサ間の補完的性質を十分に活かすことができず、カメラとレーダーの融合に秘められた大きな潜在能力を十分に発揮できていないため、性能に限界がある。本研究では、カメラとレーダーの空間的・文脈的特性を効果的に活用できる、提案レベルの早期融合アプローチを提案する。本手法の融合フレームワークは、まず極座標系において画像の提案領域とレーダー点群を対応付けることで、座標系および空間的性質の不整合を効率的に処理する。この第一段階を基盤として、連続するクロスアテンションに基づく特徴融合層が、カメラとレーダー間で適応的に空間的・文脈的情報を交換し、堅牢かつ注目性の高い融合を実現する。提案するカメラ・レーダー融合手法は、nuScenesテストセットにおいて41.1%のmAPおよび52.3%のNDSを達成し、カメラ単体のベースラインよりもそれぞれ8.7点および10.8点優れており、LiDARベースの手法と比較しても競争力のある性能を示している。