2ヶ月前

Simple-BEV: 多センサBEV認識において本当に重要なのは何か？

Harley, Adam W. ; Fang, Zhaoyuan ; Li, Jie ; Ambrus, Rares ; Fragkiadaki, Katerina

要約

自律走行車向けの3D認識システムを高密度LiDARに依存せずに構築することは、LiDARシステムがカメラや他のセンサと比較して高価であるため、重要な研究課題となっています。最近の研究では、特徴量が多視点カメラ画像から微分可能に2次元地面平面上に「リフト」されるカメラのみを使用する方法が開発され、「鳥瞰図（BEV）」特徴表現による車両周辺の3次元空間の表現が得られるようになりました。この研究領域は多くの新しい「リフト」手法を生み出していますが、訓練設定における他の詳細も同時に変化しており、最良のパフォーマンスを達成する上で何が本当に重要かが不明確になっています。また、カメラのみを使用することが現実的な制約ではないとも観察されています。レーダーなどの追加センサはすでに実際の車両に統合されているからです。本論文ではまず、BEV認識モデルの設計と訓練プロトコルにおいて影響力のある要因を明確にする試みを行います。バッチサイズと入力解像度がパフォーマンスに大きく影響を与える一方で、「リフト」戦略の効果はそれほど大きくなく、単純なパラメータフリーのリフターでも良好な結果を得られることを確認しました。さらに、レーダーデータがパフォーマンス向上に大幅な貢献をし、カメラのみを使用するシステムとLiDAR搭載システムとの間のギャップを埋める手助けになることを示します。良いパフォーマンスにつながるレーダー使用の詳細について分析し、コミュニティに対してこの一般的に軽視されているセンサプラットフォームの一環を見直すよう呼びかけています。