8ヶ月前

概要

点群を2次元球面範囲画像に射影することで、LiDARの意味分割が範囲画像上の2次元分割タスクに変換されます。しかし、LiDARの範囲画像は通常の2次元RGB画像とは本質的に異なる特性を持っています。例えば、範囲画像上の各位置は一意の幾何学情報を符号化しています。本論文では、新しい射影ベースのLiDAR意味分割パイプラインを提案します。このパイプラインには、新規なネットワーク構造と効率的な後処理ステップが含まれています。当社のネットワーク構造においては、FID（完全補間デコーディング）モジュールを設計しました。このモジュールは、双線形補間を使用して多解像度特徴マップを直接アップサンプリングします。PointNet++で使用される3次元距離補間に着想を得て、このFIDモジュールは $(θ, ϕ)$ 空間における2次元版距離補間であると主張します。パラメータフリーのデコーディングモジュールとして、FIDは高い性能を維持しながらモデルの複雑さを大幅に削減します。また、ネットワーク構造以外にも、我々のモデル予測が異なる意味クラス間に明確な境界を持つことを経験的に発見しました。これにより、広く使用されているK-最近傍法（K-nearest-neighbor）による後処理が当社のパイプラインにとって必要かどうか再考するようになりました。その後、多くの点が同じピクセルにマッピングされ同一ラベルを共有することによってぼかし効果が生じるという1対多マッピングの問題に気づきました。そこで、これらの被覆点に対して最も近い予測ラベルを割り当てるNLA（nearest label assignment）後処理ステップを提案しました。アブレーションスタディによると、NLAはKNNよりも高速な推論速度でより良い性能を示しました。SemanticKITTIデータセットにおいて、当社のパイプラインは $64 \times 2048$ 解像度でのすべての射影ベース手法および全てのポイント単位ソリューションの中で最良の性能を達成しています。ResNet-34を使用したバックボーンにより、当社モデルの学習とテストは11Gメモリを持つ単一RTX 2080 Ti上で完了できます。コードは公開されています。