2ヶ月前

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers

Zhang, Jiaming ; Liu, Huayao ; Yang, Kailun ; Hu, Xinxin ; Liu, Ruiping ; Stiefelhagen, Rainer
CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers
要約

画像セグメンテーションに基づくシーン理解は、自動運転車両にとって重要な要素です。RGB画像のピクセル単位の意味論的セグメンテーションは、補助モダリティ(X-モダリティ)からの相補的な特徴を活用することで進歩することができます。しかし、異なるモダリティ間でのセンサ特性の変動により、多様なセンサをカバーするモダリティ非依存モデルの開発は未解決の問題となっています。本研究では、これまでのモダリティ固有の手法とは異なり、RGB-X意味論的セグメンテーション用の一貫した融合フレームワークCMXを提案します。異なるモダリティ間で一般的に包括的に対応し、不確実性も含むためには、一貫したクロスモーダル相互作用がモダリティ融合において重要です。具体的には、クロスモーダル特徴修正モジュール(CM-FRM)を設計し、一方のモダリティから得られる特徴を利用して他方の特徴を修正することによって二つのモダリティ間の特徴を調整します。調整された特徴ペアを使用して、Feature Fusion Module (FFM) を展開し、混合前に長距離コンテキストの十分な交換を行います。CMXの検証のために初めて、RGBに対応する5つの補助的なモダリティ(深度、熱赤外線、偏光、イベント、LiDAR)を統一しました。広範な実験結果は、CMXが多様なマルチモーダル融合に対して良好に一般化できることを示しており、5つのRGB-DepthベンチマークだけでなくRGB-熱赤外線、RGB-偏光およびRGB-LiDARデータセットでも最先端の性能を達成しています。さらに、密・疎データ融合への一般化可能性を探るためにEventScapeデータセットに基づいたRGB-イベント意味論的セグメンテーションベンチマークを設立し、このベンチマークにおいてもCMXが新たな最先端性能を達成しています。CMXのソースコードは公開されており、https://github.com/huaaaliu/RGBX_Semantic_Segmentation からアクセスできます。

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers | 最新論文 | HyperAI超神経