
要約
自動運転車両の認識モジュールにおいて、正確な3次元(3D)オブジェクト検出は重要な要素である。3D空間におけるオブジェクトの理解が深まることで、より優れた意思決定および経路計画が可能となる。自動運転車両における環境認識に最も広く用いられているセンサーは、RGBカメラとLiDARである。RGB画像を用いた2次元(2D)オブジェクト検出に関する多くのアプローチは、顕著な成果を示しているが、大規模なシーンにおけるLiDAR点群データ内で歩行者などの小型オブジェクトを効率的に3D空間で局所化するという課題は、依然として研究の難しい領域である。本研究では、LiDARデータを用いた3Dオブジェクト検出のための新しい手法「Frustum-PointPillars」を提案する。本手法は、点群特徴のみに依存するのではなく、既に成熟した2Dオブジェクト検出技術を活用し、3D空間内の探索領域を縮小する。その後、縮小された点群データにおけるオブジェクト局所化に、Pillar Feature Encodingネットワークを用いる。さらに、点群のマスキングを新たなアプローチで行い、オブジェクトの局所化精度を向上させる。本手法はKITTIデータセット上で学習し、実験によりその有効性を検証した。KITTIテストセットにおける評価では、他のマルチセンサSOTA(最先端)手法と比較して、3D歩行者検出(鳥瞰図視点)において優れた性能を達成するとともに、顕著に高速な処理速度(14Hz)を実現した。