Command Palette
Search for a command to run...
VoxelNet:点群に基づく3次元物体検出のためのエンドツーエンド学習
VoxelNet:点群に基づく3次元物体検出のためのエンドツーエンド学習
Zhou Yin Tuzel Oncel
概要
3次元点群における物体の正確な検出は、自動運転、家事ロボット、拡張現実/仮想現実など多くの応用分野における中心的な課題である。LiDAR点群は通常極めて疎であるため、それを領域提案ネットワーク(RPN)と連携させるために、従来の多くは手作業による特徴表現に依存しており、たとえば鳥瞰図投影(bird's eye view projection)などが代表的である。本研究では、3次元点群に対して手動による特徴工学の必要性を排除し、特徴抽出とバウンディングボックス予測を単一段階で統合し、エンド・ツー・エンドで学習可能な汎用的な3次元検出ネットワークであるVoxelNetを提案する。具体的には、VoxelNetは点群を等間隔に分割された3次元ボクセルに分割し、新たに導入したボクセル特徴符号化(Voxel Feature Encoding: VFE)層を用いて各ボクセル内の点群を統一的な特徴表現に変換する。このようにして、点群は記述性のある体積表現として符号化され、その後RPNに接続されて検出結果を生成する。KITTI自動車検出ベンチマークにおける実験結果から、VoxelNetは従来の最先端のLiDARベース3次元検出手法を大きく上回ることが明らかになった。さらに、本ネットワークは多様な幾何形状を持つ物体に対して有効な判別的表現を学習できることから、LiDARデータのみを用いた歩行者および自転車の3次元検出においても有望な結果が得られた。