11日前

MVFusion:意味整合型レーダーとカメラ融合を用いたマルチビュー3Dオブジェクト検出

Zizhang Wu, Guilian Chen, Yuanzhu Gan, Lei Wang, Jian Pu
MVFusion:意味整合型レーダーとカメラ融合を用いたマルチビュー3Dオブジェクト検出
要約

多視点レーダー・カメラ統合3D物体検出は、悪天候下においても、より長い検出距離とより有益な特徴量を提供し、自動運転において重要な役割を果たす。現在のレーダー・カメラ統合手法は、レーダー情報とカメラデータを統合する多様なアーキテクチャを提案している。しかし、これらの統合アプローチは、通常、マルチモーダル特徴量間を単純に連結する手法を採用しており、レーダー特徴量との意味論的整合性や、モーダル間の十分な相関関係を十分に考慮していない。本論文では、意味論的整合性を持つレーダー特徴量の生成と、モーダル間の情報相互作用を強化する新たな多視点レーダー・カメラ統合手法「MVFusion」を提案する。この目的を達成するため、画像のガイドによってレーダー特徴量に意味論的整合性を注入する「意味論的整合レーダーエンコーダー(SARE)」を導入し、画像に依存するレーダー特徴量を生成する。さらに、レーダー特徴量をガイドとして用いる統合Transformer「レーダー・ガイドド統合Transformer(RGFT)」を提案し、クロスアテンション機構を用いて、グローバルな視点からレーダーと画像特徴量の相互関係を強化する。広範な実験により、MVFusionがnuScenesデータセットにおいて最先端の性能(NDS: 51.7%、mAP: 45.3%)を達成することが確認された。本論文公開に伴い、コードおよび学習済みネットワークを公開する予定である。

MVFusion:意味整合型レーダーとカメラ融合を用いたマルチビュー3Dオブジェクト検出 | 最新論文 | HyperAI超神経