11日前
VoxelNeXt:3次元オブジェクト検出およびトラッキングのためのフルスパースVoxelNet
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia

要約
3Dオブジェクト検出器は通常、手作業で設計された代理表現(例:アンカーや中心点)に依存しており、熟練した2Dフレームワークを3Dに移植する手法を採用している。そのため、スパースボクセル特徴量を密度化し、密度的な予測ヘッドによって処理する必要があり、必然的に追加の計算コストが発生する。本論文では、そのような制約を回避するため、完全スパースな3Dオブジェクト検出を実現するVoxelNextを提案する。本研究の核心的な洞察は、手作業による代理表現に依存せずに、スパースボクセル特徴量に基づいてオブジェクトを直接予測することである。強力なスパース畳み込みネットワークであるVoxelNeXtは、ボクセル特徴量のみを用いて3Dオブジェクトの検出と追跡を実現する。このフレームワークは洗練されており、効率的であり、スパースから密度への変換やNMS後の処理を一切不要とする。nuScenesデータセットにおいて、他の主要な検出器と比較して、より優れたスピード-精度のトレードオフを達成している。本研究では、初めて完全スパースなボクセル表現がLiDARを用いた3Dオブジェクト検出および追跡において十分に有効であることを示した。nuScenes、Waymo、Argoverse2の複数のベンチマークにおける広範な実験により、本手法の有効性が検証された。装飾的な要素を一切加えず、本モデルはnuScenes追跡テストベンチマークにおいて、既存のすべてのLiDAR手法を上回る性能を達成している。