歴史的オブジェクト予測を用いたマルチビュー3Dオブジェクト検出器の時系列強化学習

本稿では、時系列情報をより効果的に活用するためのマルチビュー3D検出のための新規パラダイムである「歴史的オブジェクト予測(Historical Object Prediction, HoP)」を提案する。HoPアプローチはシンプルである:現在の時刻$t$を入力とした場合、その隣接フレームから時刻$t-k$の擬似鳥瞰図(Bird's-Eye View, BEV)特徴量を生成し、この特徴量を用いて時刻$t-k$におけるオブジェクト集合を予測する。本手法の提案は、過去の時刻に発生するオブジェクトの空間的位置と時系列的な運動を検出器に捉えさせることで、より正確なBEV特徴量の学習が可能になるという観察に基づいている。まず、時刻$t-k$の対応するカメラ画像を必要とせずに、擬似BEV特徴量を生成できるように、短期的および長期的時系列デコーダを精巧に設計した。次に、生成された擬似BEV特徴量を用いてオブジェクトターゲットを予測するための追加的なオブジェクトデコーダを柔軟に接続した。なお、HoPは訓練時のみ実行されるため、推論時における追加の計算負荷は生じない。このプラグアンドプレイ型のアプローチは、BEVFormerやBEVDetシリーズを含む最先端のBEV検出フレームワークに容易に統合可能である。さらに、従来の時系列モデリング手法と補完的に機能し、顕著な性能向上をもたらす。提案手法の有効性を検証するため、nuScenesデータセット上で広範な実験を実施した。代表的な手法としてBEVFormerおよびBEVDet4D-Depthを用いて評価した結果、ViT-Lを用いたHoPはnuScenesテストセットにおいて68.5%のNDSおよび62.4%のmAPを達成し、リーダーボード上に掲載されているすべての3Dオブジェクト検出器を上回った。コードはhttps://github.com/Sense-X/HoPにて公開予定である。