任意モーダルのセマンティックセグメンテーションの提供

マルチモーダル融合はセマンティックセグメンテーションをより堅牢にすることができます。しかし、任意の数のモーダリティを融合することはまだ十分に研究されていません。この問題を探求するために、Depth(深度)、LiDAR(ライダー)、複数のView(視点)、Events(イベント)、RGBをカバーするDeLiVER任意モーダルセグメンテーションベンチマークを作成しました。さらに、このデータセットは4つの厳しい天候条件と5つのセンサ故障ケースを提供し、モーダル補完性を活用し、部分的な障害を解決することを目指しています。これを実現するために、任意のクロスモーダルセグメンテーションモデルCMNeXtを提案します。CMNeXtには、任意のモーダリティから効果的な情報を抽出し、RGB表現との後続の融合を行うために設計されたSelf-Query Hub (SQ-Hub)が含まれています。追加の各モーダリティにつきわずかなパラメータ量(約0.01M)しか必要としません。また、補助的なモーダリティから判別的ヒントを効率的かつ柔軟に収集するために、単純なParallel Pooling Mixer (PPX)を導入しました。合計6つのベンチマークでの広範な実験により、私たちのCMNeXtはDeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF、MCubeSデータセットで最先端の性能を達成し、1から81までのモーダリティに対応することができます。新しく収集したDeLiVERでは、4つのモーダリティを持つCMNeXtがmIoUで最大66.30%に達し、モノモーダルベースラインと比較して+9.10%の向上が見られました。DeLiVERデータセットと私たちのコードは以下のURLで公開されています: https://jamycheung.github.io/DELIVER.html.