
要約
自動運転の文脈において、点群データからリアルタイムの3D物体検出問題に取り組んでいます。検出は安全性のために必要不可欠な要素であり、計算速度が極めて重要です。しかし、既存のアプローチは点群の高次元性により計算コストが高く、実用化に課題があります。本研究では、バードズアイビュー(BEV)からシーンを表現することで3Dデータをより効率的に利用し、提案ベースでない単一ステージの検出器であるPIXORを提案します。この検出器は、ピクセル単位のニューラルネットワーク予測からデコードされた向き付き3D物体推定値を出力します。入力表現、ネットワークアーキテクチャ、モデル最適化は特に高精度とリアルタイム効率のバランスを取ることに設計されています。PIXORの有効性をKITTI BEV物体検出ベンチマークと大規模3D車両検出ベンチマークの2つのデータセットで確認しました。両方のデータセットにおいて、提案した検出器は平均精度(Average Precision: AP)という観点で他の最先端手法を著しく上回りつつ、28 FPS以上で動作することが示されました。