2ヶ月前
StitchFusion: 任意の視覚モダリティを織り交ぜてマルチモーダル意味分割を強化する
Bingyu Li; Da Zhang; Zhiyuan Zhao; Junyu Gao; Xuelong Li

要約
多モーダル意味分割は、複雑なシーンにおけるセグメンテーション精度の向上に著しい可能性を示しています。しかし、現在の手法では特定のモーダルに特化した特徴融合モジュールがしばしば組み込まれており、これにより入力の柔軟性が制限され、学習パラメータ数が増加する傾向があります。これらの課題に対処するために、私たちは「StitchFusion」(ステッチフュージョン)と呼ばれる単純かつ効果的なモーダル融合フレームワークを提案します。このアプローチは大規模事前学習モデルを直接エンコーダおよび特徴融合器として統合することで、包括的な多モーダル・マルチスケール特徴融合を促進し、任意の視覚モーダル入力を扱うことができます。特に、私たちのフレームワークはエンコーディング時に多モーダル視覚情報を共有することによってモーダル統合を実現します。さらに、モーダル間での情報交換を強化するために、「多方向アダプタモジュール」(MultiAdapter)を導入し、エンコーディング中にクロスモーダル情報転送を可能にしました。事前学習されたエンコーダ間でMultiAdapterを使用してマルチスケール情報を伝播させることにより、StitchFusionはエンコーディング中に多モーダル視覚情報の統合を達成します。広範な比較実験により、当モデルは最小限の追加パラメータで4つの多モーダルセグメンテーションデータセットにおいて最先端の性能を達成することが示されました。また、既存の特徴融合モジュール(FFMs)との実験的統合により、それらが互いに補完的な関係にあることが明らかになりました。私たちのコードはStitchFusion_repoで公開されています。