効率的なアテンティブピラー・ネットワークを用いた正確かつリアルタイムの3D歩行者検出

3D点群データから人を効率的かつ正確に検出することは、多くのロボット工学や自動運転アプリケーションにおいて非常に重要です。この基本的な認識タスクは、(i) 人間の体勢やジェスチャーが時間とともに大幅に変形することと (ii) 歩行者クラスの物体に対する点群の疎さと不足により、依然として非常に困難な課題となっています。最近の効率的な3D物体検出手法では、点群データから物体を検出するためにピラー特徴量に依存しています。しかし、これらのピラー特徴量は、前述のすべての人検出に関する課題に対処するためには十分な表現力を持っていません。この欠点を解決するために、まずStackable Pillar Aware Attention (PAA) モジュールを導入し、ピラー特徴量の抽出を強化しながら点群内のノイズを抑制します。マルチポイントチャネルプーリング、ポイントワイズ、チャネルワイズ、およびタスクアウェア注意をシンプルなモジュールに統合することで、表現能力が向上し、追加の計算リソースの必要性は最小限に抑えられます。また、Mini-BiFPNという小さな効果的な特徴ネットワークも提案します。これは双方向情報フローと多段階クロススケール特徴融合を作り出し、多解像度特徴をよりよく統合します。我々が提案するフレームワークであるPiFeNetは、3D歩行者検出用の3つの大規模データセット(KITTI, JRDB, nuScenes)で評価され、KITTI Bird-eye-view (BEV) とJRDBで最先端 (SOTA) の性能を達成し、nuScenesでも非常に競争力のある性能を示しました。我々の手法は26フレーム毎秒 (FPS) の推論速度を持ち、リアルタイム検出器として機能します。PiFeNetのコードはhttps://github.com/ldtho/PiFeNetで公開されています。