RPVNet: LiDAR ポイントクラウド分割のための深層かつ効率的な範囲-ポイント-ボクセル融合ネットワーク

点群は多くの形式(ビュー)で表現することができます。典型的には、点ベースの集合、ボクセルベースのセル、または範囲ベースの画像(すなわち、パノラマビュー)があります。点ベースのビューは幾何学的に正確ですが、無秩序であり、局所的な近傍を効率的に見つけることが困難です。ボクセルベースのビューは規則的ですが、疎であり、ボクセル解像度が向上すると計算量が立方的に増加します。範囲ベースのビューは規則的で一般的に密ですが、球面投影により物理的な寸法が歪みます。ボクセルおよび範囲ベースのビューは量子化損失に悩まされており、特に大規模シーンではボクセルに対して顕著です。これらの異なるビューの長所を活用し、細かいセグメンテーションタスクにおけるそれぞれの短所を緩和するために、我々は新しい範囲-点-ボクセル融合ネットワークであるRPVNetを提案します。このネットワークでは、これらの3つのビュー間での複数かつ相互的な情報交換を行う深層融合フレームワークを設計し、ゲート付き融合モジュール(GFMと呼ぶ)を提案しています。これは並行入力に基づいて3つの特徴量を適応的に統合することができます。さらに、提案したRPV相互作用メカニズムは非常に効率的であり、それをより一般的な式にまとめています。この効率的な相互作用と比較的低いボクセル解像度を利用することで、当方法も効率性が高いことが証明されています。最後に、SemanticKITTIとnuScenesという2つの大規模データセット上で提案モデルを評価しました。その結果、両方において最先端の性能を示しており、特にSemanticKITTIリーダーボードでは追加のトリックなしで1位となっています。注:当方法は現在、追加のトリックなしでSemanticKITTIリーダーボードで1位となっています。