11日前

MTANet:RGB-T都市シーン理解を目的とした階層的マルチモーダル統合を備えたマルチタスク認識ネットワーク

{Lu Yu, Jingsheng Lei, Shaohua Dong, WuJie Zhou}
要約

都市シーンの理解は、運転支援システムおよび自動運転車両において基本的な能力要件である。現在利用可能な都市シーン理解手法の多くは、赤緑青(RGB)画像を用いているが、悪化した照明条件下ではセグメンテーション性能が低下しやすい。近年、都市シーン理解に向けた多数の効果的な人工ニューラルネットワークが提案されており、RGB画像と赤外線(RGB-T)画像を組み合わせることで、不十分な照明条件下でもセグメンテーション精度の向上が可能であることが示されている。しかし、マルチモーダル特徴の融合の潜在能力は、RGB特徴と赤外線特徴を単純に連結する、あるいは特徴マップを平均化するといった手法が用いられていることから、十分に活用されていない。マルチモーダル特徴の融合およびセグメンテーション精度の向上を図るため、本研究では階層的マルチモーダル融合(マルチスケール融合戦略)を備えたマルチタスク感知ネットワーク(MTANet)を提案する。階層的マルチモーダル融合モジュールを設計し、特徴の融合を強化するとともに、高レベルの意味情報抽出を可能とするセマンティックモジュールを構築し、異なる抽象レベルにおける粗い特徴と統合する。多レベル融合モジュールを用いて、低レベル、中レベル、高レベルの融合を実現し、セグメンテーション精度の向上を図った。さらに、境界、二値、セマンティックの三種類の教師信号を用いたマルチタスクモジュールにより、MTANetのパラメータを最適化した。提案手法の有効性を検証するため、2つのベンチマークRGB-Tデータセットを用いた広範な実験を行い、最先端手法と比較して、本手法が優れた性能を発揮することを確認した。

MTANet:RGB-T都市シーン理解を目的とした階層的マルチモーダル統合を備えたマルチタスク認識ネットワーク | 最新論文 | HyperAI超神経