双提示学習を用いた効率的なマルチモーダルセマンティックセグメンテーション

多モーダル(例:RGB-Depth/RGB-Thermal)融合は、複雑なシーン(例:室内/低照度条件)におけるセマンティックセグメンテーションの改善に大きな可能性を示しています。既存の手法では、通常、双方向エンコーダー-デコーダーフレームワークを複雑な特徴量融合戦略で完全に微調整することで、多モーダルセマンティックセグメンテーションを達成しようとしますが、これには特徴量抽出と融合における大量のパラメータ更新が必要であり、訓練コストが高くなります。この問題に対処するため、私たちは驚くほど単純かつ効果的な双方向プロンプト学習ネットワーク(DPLNetと呼ぶ)を提案します。DPLNetの核心は、事前学習済みのRGBモデルをそのまま利用し、多モーダルセマンティックセグメンテーションに直接適応させることです。これによりパラメータ更新が削減されます。この目的のために、私たちは2つのプロンプト学習モジュールを提示します。これらは多モーダルプロンプトジェネレーター(MPG)と多モーダル特徴量アダプター(MFA)から構成されています。MPGは異なるモーダルからの特徴量をコンパクトに融合し、影から深層まで挿入されて多段階の多モーダルプロンプトを生成します。これらのプロンプトは冷凍されたバックボーンに注入されます。一方、MFAは冷凍されたバックボーン内のプロンプトされた多モーダル特徴量を適応させることで、より良い多モーダルセマンティックセグメンテーションを実現します。MPGとMFAは軽量であるため、多モーダル特徴量融合と学習のために導入される訓練可能なパラメータ数はわずか3.88M(事前学習済みバックボーンのパラメータ数の4.4%)です。シンプルなデコーダー(3.27Mのパラメータ)を使用することで、DPLNetは4つのRGB-D/Tセマンティックセグメンテーションデータセットにおいて新しい最先端性能または他の複雑な手法と同等の性能を達成しながら、パラメータ効率も満たしています。さらに、私たちはDPLNetが一般的であり、サリエンシー物体検出やビデオセマンティックセグメンテーションなどの他の多モーダルタスクにも適用可能であることを示しています。特別な設計なしでも、DPLNetは多くの複雑なモデルを超える性能を発揮します。私たちのコードはgithub.com/ShaohuaDong2021/DPLNetで公開予定です。