12日前

RCFusion:3次元物体検出のためのビューフォーカス特徴を用いた4次元レーダーとカメラの融合

{Zhixiong Ma, Xichan Zhu, Jie Bai, Libo Huang, Sihan Chen, Long Yan, Bin Tan, Sen Li, Lianqing Zheng}
要約

カメラとミリ波(MMW)レーダーの融合は、正確かつ堅牢な自動運転システムの実現に不可欠である。レーダー技術の進展に伴い、次世代の高解像度自動車用レーダー、すなわち4次元(4-D)レーダーが登場している。従来のレーダーが対象物の距離、方位角、ドップラー速度を測定するのに対し、4-Dレーダーはさらに高度方向の情報を取得することで、より密集した「ポイントクラウド」を生成可能となる。本研究では、カメラと4-Dレーダーの融合を実現するネットワーク「RCFusion」を提案する。この手法は、統一された鳥瞰図空間(Bird’s-Eye View, BEV)上で複数モーダルな特徴を融合し、3次元物体検出を実現することを目的としている。カメラ入力側では、画像バックボーンと特徴ピラミッドネットワーク(FPN)を用いてマルチスケールの特徴マップを取得し、その後、正射影特徴変換(Orthographic Feature Transform, OFT)により正射影特徴マップに変換する。さらに、設計された共有アテンションエンコーダーにより、強化され、細粒度な画像BEV特徴を生成する。一方、4-Dレーダー入力側では、新規に設計された「レーダーピラーネット(Radar PillarNet)」がレーダー特徴を効率的に符号化し、レーダー仮想画像(pseudo-image)を生成。この仮想画像はポイントクラウドバックボーンに投入され、レーダーBEV特徴を生成する。融合段階では、2モーダルなBEV特徴を有効に統合するため、インタラクティブアテンションモジュール(Interactive Attention Module, IAM)を提案する。最終的に、汎用的な検出ヘッドが物体のクラスと位置を予測する。提案手法RCFusionは、TJ4DRadSetおよびView-of-Delft(VoD)データセット上で検証された。実験結果および分析の結果、本手法がカメラと4-Dレーダーの特徴を効果的に融合し、堅牢な物体検出性能を達成できることを示した。

RCFusion:3次元物体検出のためのビューフォーカス特徴を用いた4次元レーダーとカメラの融合 | 最新論文 | HyperAI超神経