HyperAIHyperAI

Command Palette

Search for a command to run...

FIDNet: LiDAR ポイントクラウドのセマンティックセグメンテーションを完全補間デコーディングで実現

Yiming Zhao; Lin Bai; Xinming Huang

概要

点群を2次元球面範囲画像に射影することで、LiDARの意味分割が範囲画像上の2次元分割タスクに変換されます。しかし、LiDARの範囲画像は通常の2次元RGB画像とは本質的に異なる特性を持っています。例えば、範囲画像上の各位置は一意の幾何学情報を符号化しています。本論文では、新しい射影ベースのLiDAR意味分割パイプラインを提案します。このパイプラインには、新規なネットワーク構造と効率的な後処理ステップが含まれています。当社のネットワーク構造においては、FID(完全補間デコーディング)モジュールを設計しました。このモジュールは、双線形補間を使用して多解像度特徴マップを直接アップサンプリングします。PointNet++で使用される3次元距離補間に着想を得て、このFIDモジュールは(θ,ϕ)(θ, ϕ)(θ,ϕ)空間における2次元版距離補間であると主張します。パラメータフリーのデコーディングモジュールとして、FIDは高い性能を維持しながらモデルの複雑さを大幅に削減します。また、ネットワーク構造以外にも、我々のモデル予測が異なる意味クラス間に明確な境界を持つことを経験的に発見しました。これにより、広く使用されているK-最近傍法(K-nearest-neighbor)による後処理が当社のパイプラインにとって必要かどうか再考するようになりました。その後、多くの点が同じピクセルにマッピングされ同一ラベルを共有することによってぼかし効果が生じるという1対多マッピングの問題に気づきました。そこで、これらの被覆点に対して最も近い予測ラベルを割り当てるNLA(nearest label assignment)後処理ステップを提案しました。アブレーションスタディによると、NLAはKNNよりも高速な推論速度でより良い性能を示しました。SemanticKITTIデータセットにおいて、当社のパイプラインは64×204864 \times 204864×2048解像度でのすべての射影ベース手法および全てのポイント単位ソリューションの中で最良の性能を達成しています。ResNet-34を使用したバックボーンにより、当社モデルの学習とテストは11Gメモリを持つ単一RTX 2080 Ti上で完了できます。コードは公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています