2ヶ月前
PointPillars: 点群から物体検出を行うための高速エンコーダー
Lang, Alex H. ; Vora, Sourabh ; Caesar, Holger ; Zhou, Lubing ; Yang, Jiong ; Beijbom, Oscar

要約
点群における物体検出は、自動運転を含む多くのロボティクス応用において重要な側面です。本論文では、点群を下流の検出パイプラインに適した形式にエンコードする問題を取り上げます。最近の文献では、2種類のエンコーダが提案されています。固定型エンコーダは高速ですが精度が犠牲になる一方で、データから学習されるエンコーダはより正確ですが遅いという特徴があります。本研究では、PointNetsを利用し、垂直列(ピラー)に組織化された点群の表現を学習する新しいエンコーダであるPointPillarsを提案します。エンコードされた特徴量は任意の標準的な2D畳み込み検出アーキテクチャと組み合わせて使用できますが、さらに簡素な下流ネットワークも提案しています。広範な実験結果から、PointPillarsは速度と精度の両面で以前のエンコーダを大幅に上回ることが示されました。LiDARのみを使用しているにもかかわらず、当社の完全な検出パイプラインは3Dおよび鳥瞰図(bird's eye view)KITTIベンチマークにおいて最高峰の性能を達成しており、他の融合手法と比較しても優れています。この検出性能は62 Hzで達成されており、2〜4倍の実行時間改善が見られます。さらに高速なバージョンでは105 Hzで最高峰の性能と同等の結果を得ています。これらのベンチマーク結果は、PointPillarsが点群における物体検出に適したエンコーディングであることを示唆しています。