
要約
近年、Lift-Splat-Shot(LSS)に基づく3次元オブジェクト検出手法において大きな進展が見られた。しかし、カメラ単体およびマルチモーダルな3次元オブジェクト検出モデルの精度を制限する重要な要因として、不正確な深度推定が残っている。特に深度が急激に変化する領域(いわゆる「深度ジャンプ(depth jump)」問題)では、この課題が顕著である。本論文では、新たなエッジ認識型Lift-Splat-Shot(EA-LSS)フレームワークを提案する。具体的には、「エッジ認識型深度融合(Edge-aware Depth Fusion: EADF)」モジュールを導入し、深度ジャンプ問題の緩和を図るとともに、「細粒度深度(Fine-grained Depth: FGD)」モジュールを用いて、深度推定に対するより精密な監視を強化する。本提案するEA-LSSフレームワークは、任意のLSSベースの3次元オブジェクト検出モデルと互換性があり、推論時間の増加をほとんど伴わずに、モデル性能を著しく向上させる。nuScenesベンチマーク上の実験結果から、EA-LSSがカメラ単体モデルおよびマルチモーダルモデルの両方において有効であることが示された。特に注目すべきは、EA-LSSがnuScenesテストベンチマークにおいて、mAP 76.5%、NDS 77.6%という最新の最先端性能を達成した点である。