2ヶ月前

MVX-Net: 多モーダルVoxelNetによる3次元物体検出

Vishwanath A. Sindagi; Yin Zhou; Oncel Tuzel
MVX-Net: 多モーダルVoxelNetによる3次元物体検出
要約

最近の3D物体検出に関する多くの研究は、点群データを処理できるニューラルネットワークアーキテクチャの設計に焦点を当てています。これらの手法は有望な性能を示していますが、通常は単一のモダリティに基づいており、カメラなどの他のモダリティからの情報を活用することができません。複数のモダリティからデータを融合する手法もいくつか存在しますが、これらの方法は順次的にモダリティを処理するため複雑なパイプラインを使用するか、または後期融合を行い、初期段階で異なるモダリティ間の相互作用を学習することができません。本研究では、VoxelNetアーキテクチャを活用してRGBと点群の2つのモダリティを組み合わせる2つの単純かつ効果的な早期融合手法、PointFusionおよびVoxelFusionを提案します。KITTIデータセットでの評価結果は、点群データのみを使用する手法よりも大幅な性能向上を示しています。さらに、提案された手法は単純なシングルステージネットワークを使用することで、最新の多モダリティアルゴリズムと競合する結果を得ており、KITTIベンチマークの6つの鳥瞰図および3D検出カテゴリうち5つで上位2位の成績となっています。

MVX-Net: 多モーダルVoxelNetによる3次元物体検出 | 最新論文 | HyperAI超神経