
要約
3D点群における物体の正確な検出は、自律走行、家事支援ロボット、拡張現実/仮想現実などの多くの応用において中心的な問題となっています。LiDAR点群と領域提案ネットワーク(Region Proposal Network: RPN)を接続するためには、これまでの多くの研究が手作業による特徴表現に焦点を当ててきました。例えば、鳥瞰図投影などが挙げられます。本研究では、3D点群に対する手動の特徴エンジニアリングの必要性を排除し、VoxelNetという汎用的な3D検出ネットワークを提案します。VoxelNetは特徴抽出とバウンディングボックス予測を単一ステージで統合し、エンドツーエンドで学習可能な深層ネットワークとして構築されています。具体的には、VoxelNetは点群を等間隔に分割した3Dボクセルに分け、各ボクセル内の点群を新規導入されたボクセル特徴エンコーディング(Voxel Feature Encoding: VFE)レイヤーを通じて一貫した特徴表現に変換します。この方法により、点群は記述的な体積表現にエンコードされ、その後RPNに接続されて検出結果が生成されます。KITTI車両検出ベンチマークでの実験結果から、VoxelNetは既存のLiDARベースの3D検出手法よりも大幅に優れていることが示されました。さらに、当社のネットワークは様々な形状を持つ物体の効果的な識別表現を学習しており、LiDARのみを使用した歩行者や自転車利用者の3D検出においても有望な結果を得ています。