
要約
自律走行車における認識システムは、周囲の物体を検出および追跡する役割を担っている。この処理は、耐障害性および精度を向上させるために複数のセンシングモダリティを活用するため、センサーフュージョンが認識システムの重要な構成要素となっている。本論文では、レーダーとカメラのセンサーフュージョン問題に注目し、3次元物体検出に向けたレーダーおよびカメラデータを有効活用するミドルフェージョンアプローチを提案する。本手法は「CenterFusion」と命名され、まず画像上における物体の中心点を特定することで物体を検出する中心点検出ネットワークを用いる。その後、新たなフリスムベースの手法を用いて、レーダー検出結果と対応する物体の中心点との間のデータ関連付けという重要な課題を解決する。関連付けられたレーダー検出結果を用いて、画像特徴を補完するレーダー由来の特徴マップを生成し、奥行き、回転、速度といった物体の属性を回帰する。我々は、挑戦的なnuScenesデータセット上でCenterFusionを評価した結果、最先端のカメラベースアルゴリズムの全体的なnuScenes Detection Score(NDS)を12%以上向上させることを確認した。さらに、追加の時間情報(時系列情報)を一切用いずに、速度推定の精度が顕著に向上することも示した。実装コードは、https://github.com/mrnabati/CenterFusion にて公開されている。