3ヶ月前

BEVFusion：統一された鳥瞰図表現を用いたマルチタスクマルチセンサ融合

Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han

要約

多センサ融合は、正確かつ信頼性の高い自動運転システムにおいて不可欠である。近年の手法は、点レベルの融合に依拠している：LiDARの点群データにカメラ特徴を統合する方式である。しかし、カメラからLiDARへの投影処理は、カメラ特徴に内在する意味的密度を損なうため、特に意味論的タスク（例：3次元シーンセグメンテーション）において、その効果が制限される。本論文では、BEVFusionと呼ばれる効率的かつ汎用的なマルチタスク・マルチセンサ融合フレームワークを提案し、この深く根ざした従来の枠組みを打ち破る。本手法は、共通の鳥瞰図視点（Bird’s-Eye View: BEV）表現空間において多モーダル特徴を統一することで、幾何学的情報と意味的情報を両方とも良好に保持する。これを実現するため、視点変換における主要な効率的ボトルネックを診断・解消し、最適化されたBEVプーリングを導入することで、遅延を40倍以上削減した。BEVFusionは根本的にタスクに依存しない設計であり、アーキテクチャのほとんど変更なしに、さまざまな3次元認識タスクをスムーズにサポートできる。nuScenesデータセットにおいて、3次元物体検出ではmAPおよびNDSが1.3%向上し、BEVマップセグメンテーションではmIoUが13.6%向上する新記録を達成した一方で、計算コストは1.9倍低減した。本研究の再現コードは、https://github.com/mit-han-lab/bevfusion にて公開されている。