仮想スパース畳み込みを用いた多モーダル3次元物体検出

最近、深度補完によってRGB画像とLiDARデータをシームレスに融合する仮想/擬似ポイントベースの3D物体検出が大きな注目を集めています。しかし、画像から生成される仮想ポイントは非常に密集しており、検出時に大量の冗長な計算を引き起こします。さらに、精度の低い深度補完によってもたらされるノイズは、検出精度を大幅に低下させます。本論文では、新しい演算子VirConv(Virtual Sparse Convolution)に基づく高速かつ効果的なバックボーンであるVirConvNetを提案します。VirConvには2つの主要な設計が含まれています:(1) StVD(Stochastic Voxel Discard)と(2) NRConv(Noise-Resistant Submanifold Convolution)。StVDは大量の近接する冗長なボクセルを破棄することで計算問題を軽減します。NRConvは2D画像空間と3D LiDAR空間の両方でボクセル特徴を符号化することによりノイズ問題に対処します。VirConvを統合することで、まず初期融合設計に基づいた効率的なパイプラインVirConv-Lを開発しました。次に、変換精緻化スキームに基づいた高精度パイプラインVirConv-Tを構築しました。最後に、疑似ラベルフレームワークに基づいた半教師付きパイプラインVirConv-Sを開発しました。KITTI車両3D検出テストリーダーボードにおいて、我々のVirConv-Lは56ミリ秒という高速な実行速度で85%のAP(平均精度)を達成しています。また、VirConv-TとVirConv-Sはそれぞれ86.3%と87.2%の高精度APを達成し、現在それぞれ2位と1位となっています。コードは https://github.com/hailanyi/VirConv で公開されています。