11日前
SA-BEV:マルチビュー3Dオブジェクト検出のための意味認識型鳥瞰図特徴の生成
Jinqing Zhang, Yanan Zhang, Qingjie Liu, Yunhong Wang

要約
最近、純粋なカメラベースのビューアー・エイド・ビュー(Bird’s-Eye-View, BEV)認識が、経済的な自律走行の実現に向けた有効な解決策として注目されている。しかし、従来のBEVベースのマルチビュー3D検出器は、画像特徴をすべてBEV特徴に変換する一方で、背景情報の割合が大きく、オブジェクト情報がその中で埋もれてしまうという問題を考慮していない。本論文では、画像特徴の意味論的セグメンテーションに基づいて背景情報をフィルタリングし、意味論的に意識したBEV特徴に画像特徴を変換可能な「意味論的認識BEVプーリング(Semantic-Aware BEV Pooling, SA-BEVPool)」を提案する。これに伴い、意味論的認識BEV特徴と密接に整合する効果的なデータ拡張戦略「BEV-Paste」も提案する。さらに、タスク固有の情報とタスク間の相互情報を取り入れることで、深度分布および意味論的セグメンテーションの予測精度を向上させる「マルチスケールクロストラスク(Multi-Scale Cross-Task, MSCT)ヘッド」を設計した。最後に、上記のモジュールを統合し、新たなマルチビュー3Dオブジェクト検出フレームワーク「SA-BEV」を構築した。nuScenesデータセットにおける実験結果から、SA-BEVが最先端の性能を達成することが確認された。コードは https://github.com/mengtan00/SA-BEV.git にて公開されている。