CSFNet: ドライビングシーンのリアルタイムRGB-Xセマンティックセグメンテーションのためのコサイン類似度融合ネットワーク

意味分割は、複雑な視覚解釈の重要な構成要素として、自動車の自律走行システムにおいて基本的な役割を果たしています。最近の研究では、補完的な情報の活用と多モーダル手法の開発により、意味分割の精度が大幅に向上しています。しかし、精度向上にもかかわらず、多モーダル意味分割手法は高い計算複雑さと低い推論速度という問題を抱えています。したがって、ドライビングアプリケーションでの多モーダル手法の実装は困難な課題となっています。この問題に対処するため、我々はリアルタイムRGB-X意味分割モデルとしてコサイン類似度融合ネットワーク(Cosine Similarity Fusion Network, CSFNet)を提案します。具体的には、2つのモーダル間の特徴量を効果的に修正および融合するコサイン類似度注意融合モジュール(Cosine Similarity Attention Fusion Module, CS-AFM)を設計しました。CS-AFMモジュールはクロスモーダル類似度を利用し、高い汎化能力を達成します。低レベルでのクロスモーダル特徴量の融合を強化することで、高レベルでの単一分岐ネットワークの使用が可能になります。したがって、エンコーダーでは双方向および単一分岐アーキテクチャを使用し、効率的なコンテキストモジュールと軽量デコーダーを組み合わせて高速かつ正確な予測を行います。CSFNetの有効性を検証するために、Cityscapes, MFNet, およびZJUデータセットを使用してRGB-D/T/P意味分割を行いました。結果によると、CSFNetは最先端の方法と競合する精度を持ちつつ、多モーダル意味分割モデルの中で最も速い性能を示しています。また、少ないパラメータ数と低い計算複雑さにより高い効率性も達成しています。CSFNetのソースコードはhttps://github.com/Danial-Qashqai/CSFNetで公開される予定です。