ボクセルR-CNN:高性能ボクセルベース3Dオブジェクト検出へ向けて

近年の3次元物体検出における進展は、主に3次元データの表現方法、すなわちボクセルベースまたはポイントベースの表現に大きく依存している。既存の高性能な3次元検出器の多くはポイントベース構造を採用しているが、これは点の位置情報をより正確に保持できるためである。しかしながら、ポイントレベルの特徴量は順序なしの格納構造に起因して高い計算負荷を引き起こす。これに対し、ボクセルベースの構造は特徴抽出に適しているが、入力データがグリッドに分割されるため、精度が低くなる傾向がある。本論文では、この視点を少し異なる角度から捉える。すなわち、高性能な3次元物体検出において、原始的な点の正確な位置情報が必ずしも必要ではなく、粗いボクセルの粒度でも十分な検出精度が得られることを発見した。この認識を踏まえて、シンプルでありながら効果的なボクセルベースのフレームワーク、Voxel R-CNNを提案する。2段階アプローチによりボクセル特徴を最大限に活用することで、最先端のポイントベースモデルと同等の検出精度を達成しつつ、計算コストを大幅に削減した。Voxel R-CNNは3次元バックボーンネットワーク、2次元鳥瞰図(BEV)領域提案ネットワーク(Region Proposal Network)、および検出ヘッドから構成される。さらに、ボクセル特徴から直接領域オブジェクト(RoI)特徴を抽出するためのボクセルRoIプーリングを新たに設計した。広範な実験は、広く用いられているKITTIデータセットおよび最新のWaymo Open Datasetを用いて実施された。実験結果から、既存のボクセルベース手法と比較して、Voxel R-CNNはより高い検出精度を達成しつつ、リアルタイムのフレーム処理速度(NVIDIA RTX 2080 Ti GPU上で25 FPS)を維持できることを示した。コードは以下のURLで公開されている:\url{https://github.com/djiajunustc/Voxel-R-CNN}。