
要約
単一フレームのデータには有限な情報しか含まれないため、現在の視覚ベースのマルチカメラ3Dオブジェクト検出パラダイムの性能に限界が生じている。この分野における性能の境界を根本的に押し上げるため、空間のみに依存する3D空間から空間時系列的な4D空間へとスケーラブルなBEVDetパラダイムを拡張する、新たなパラダイム「BEVDet4D」を提案する。本研究では、単純なBEVDetフレームワークをわずかな修正により拡張し、前フレームの特徴量と現在フレームの対応する特徴量を融合する仕組みを導入した。これにより、追加の計算コストをほとんど増加させることなく、BEVDet4Dは2つの候補特徴量を照合・照会することで時系列的な情報を活用可能となる。さらに、学習ターゲットから自己運動(ego-motion)および時間要因を排除することで、速度予測のタスクを簡素化した。その結果、汎化性能に優れたBEVDet4Dは速度誤差を最大で62.9%低減した。これにより、視覚ベースの手法が、初めてLiDARやレーダーに依存する手法と同等の性能を達成するに至った。チャレンジベンチマークであるnuScenesにおいて、高性能設定「BEVDet4D-Base」を用いて54.5%のNDS(NuScenes Detection Score)という新記録を達成し、前例の最良手法であるBEVDet-Baseを+7.3%のNDS向上で上回った。本研究のソースコードは、今後の研究を目的としてGitHubにて公開されている(https://github.com/HuangJunJie2017/BEVDet)。