SpaRC: スパース レーダー-カメラ 融合による3次元物体検出

本研究では、SpaRC(Sparse fusion transformer for 3D perception)を提案します。これは、多視点画像の意味論的情報とレーダーおよびカメラの点特徴を統合する新しいスパース融合トランスフォーマーです。レーダーとカメラのモダリティの融合は、自動運転システムにおける効率的な認識パラダイムとして注目されています。従来のアプローチでは、深度推定のために密な鳥瞰図(Bird's Eye View, BEV)ベースのアーキテクチャが利用されていましたが、現代のクエリベースのトランスフォーマーはオブジェクト中心的手法によりカメラのみを使用した検出に優れています。しかし、これらのクエリベースのアプローチは暗黙的な深度モデリングにより偽陽性検出や位置特定精度に制限があることが示されています。これらの課題に対処するために、我々は以下の3つの主要な貢献を行います:(1) クロスモダリティ特徴量の整合性を確保するためのスパースフランストラム融合(Sparse Frustum Fusion, SFF)、(2) 精密な物体位置特定を実現するための範囲適応型レーダー集約(Range-Adaptive Radar Aggregation, RAR)、(3) 集中的なクエリ集約を可能にする局所自己注意機構(Local Self-Attention, LSA)。既存の方法が計算負荷が高いBEVグリッドレンダリングを必要とする一方で、SpaRCは直接エンコードされた点特徴量上で動作し、効率性と精度において大幅な改善をもたらします。nuScenesおよびTruckScenesベンチマークでの経験的評価により、SpaRCは既存の密なBEVベースおよびスパースクエリベースの検出器に対して著しく優れた性能を示しています。当手法は67.1 NDSおよび63.1 AMOTAという最先端の性能指標を達成しています。コードと事前学習済みモデルは https://github.com/phi-wol/sparc で公開されています。