モダリティに依存しないデコードと近接に基づくモダリティアンサンブルを用いたロバストなマルチモーダル3Dオブジェクト検出

3次元物体検出における最近の進展は、マルチビューカメラとLiDARセンサからのマルチモーダル情報の活用に起因している。しかし、これらのモーダル間には固有の相違が存在し、大きな課題をもたらしている。現存するマルチモーダル3次元物体検出手法は、LiDARセンサに過度に依存しており、カメラを補助的なモーダルとして、セマンティック情報を補完する役割に限定している。この傾向は、カメラデータの十分な活用が行われないだけでなく、LiDARデータが利用不可能な状況下では検出性能が著しく低下する原因となっている。さらに、既存の融合手法は、環境変化に起因するセンサノイズが検出性能に与える悪影響を無視している。本論文では、すべての利用可能なモーダルから3次元物体検出に必要な重要な情報を活用しつつ、融合プロセス中に汚損された信号からもシステムを保護するMEFormerを提案する。具体的には、入力モーダルに依存せずに共通のTransformerデコーダを用いて幾何学的およびセマンティック特徴を抽出する「モーダル無差別デコード(Modality Agnostic Decoding, MOAD)」を導入し、単一モーダルおよびマルチモーダルの両方において顕著な性能向上を実現している。また、環境状況に応じて各モーダルの強みを適応的に活用し、ノイズの多いセンサの影響を軽減する「距離に基づくモーダルアンサンブル(Proximity-based Modality Ensemble, PME)」モジュールを提案している。MEFormerは、nuScenes検証セットにおいて73.9%のNDSおよび71.5%のmAPという最先端の性能を達成した。広範な分析により、本手法がセンサの故障や環境変化といった困難な条件下でも検出のロバスト性を向上させることを実証した。ソースコードは以下のURLで公開されている:https://github.com/hanchaa/MEFormer