
要約
自律走行において、リアルタイムかつ高性能な3Dオブジェクト検出は極めて重要である。近年、高性能を発揮する3Dオブジェクト検出器は主にポイントベースまたは3Dボクセルベースの畳み込みに依存しているが、これらは搭載環境における実装に対して計算効率が劣っている。これに対して、ピラーベースの手法は2D畳み込みのみを用いるため、計算リソースの消費が少なく、柔軟性に優れるものの、検出精度においてボクセルベース手法と比べて大きく後れを取っている。本論文では、ピラーベースとボクセルベースの検出器の主な性能差を詳細に分析し、リアルタイムかつ高性能なピラーベース検出器「PillarNet」を提案する。提案手法PillarNetは、効果的なピラーフィーチャ学習を実現する強力なエンコーダネットワーク、空間的・意味的特徴の融合を担うネックネットワーク、および一般的に用いられる検出ヘッドから構成されている。PillarNetは2D畳み込みのみを用いるため、任意のピラーサイズに対応可能であり、VGGNetやResNetといった従来の2D CNNバックボーンとも互換性を持つ。さらに、我々が設計した方向性分離型IoU回帰損失関数とIoU意識型予測ブランチの導入により、性能向上が実現されている。大規模なnuScenesデータセットおよびWaymo Open Datasetにおける広範な実験結果から、PillarNetが既存の最先端3D検出器と比較して、効果性と効率性の両面で優れた性能を発揮することが示された。コードは以下のURLから公開されている:\url{https://github.com/agent-sgs/PillarNet}。