EPMF:3次元セマンティックセグメンテーションにおける効率的なペルセプション認識型マルチセンサ融合

3次元セマンティックセグメンテーションにおけるマルチセンサ融合は、自動運転やロボティクスなど多くの応用分野におけるシーン理解において重要である。しかし、従来の融合ベースの手法は、RGB画像と点群データといった2つのモダリティ間の顕著な違いにより、十分な性能を発揮できない場合がある。本研究では、視覚的知覚情報を効果的に活用するための協調型融合スキームである「知覚意識型マルチセンサ融合(Perception-Aware Multi-Sensor Fusion, PMF)」を提案する。本手法は、RGB画像から得られる外観情報と、LiDAR点群から得られる空間的・深度情報の両方を有効に統合することを目的としている。具体的には、透視投影を用いて点群をカメラ座標系に投影し、LiDARとカメラからの入力データを2次元空間で処理することで、RGB画像の情報損失を最小限に抑える。その後、2つのモダリティそれぞれから特徴を抽出するための二重ストリームネットワークを設計し、効果的な残差ベースの融合モジュールにより特徴を統合する。さらに、両モダリティ間の知覚的差異を測定するための追加的な知覚意識型損失関数を導入する。最後に、透視投影下でのデータ前処理およびネットワークアーキテクチャの最適化により、より効率的かつ効果的な改良版PMF(EPMF)を提案する。具体的には、クロスモダリティアライメントとクロッピングを導入することで、タイトな入力データを取得し、不要な計算コストを削減する。また、透視投影下でより効率的な文脈的モジュールを検討し、LiDAR特徴をカメラストリームに統合することで、二重ストリームネットワークの性能を向上させる。ベンチマークデータセットにおける広範な実験結果から、本手法の優位性が示された。例えば、nuScenesテストセットにおいて、EPMFは最先端手法であるRangeFormerと比較してmIoUで0.9%の向上を達成した。本研究のソースコードは、https://github.com/ICEORY/PMF にて公開されている。