17日前

RGB-Depth画像のセマンティックセグメンテーションのためのマルチモーダルアテンションベースの統合モデル

Fahimeh Fooladgar, Shohreh Kasaei
RGB-Depth画像のセマンティックセグメンテーションのためのマルチモーダルアテンションベースの統合モデル
要約

3Dシーン理解は、コンピュータビジョンおよびロボティクス分野において重要な要件とされている。3Dシーン理解における高レベルなタスクの一つとして、RGB-Depth画像のセマンティックセグメンテーションが挙げられる。RGB-Dカメラの普及に伴い、外観特徴と深度特徴を併用することで、シーン理解の精度を向上させることが求められている。深度画像は照明条件に依存しないため、RGB画像と併用することでセマンティックラベリングの品質を向上させることができる。両モダリティの共通特徴と特有の特徴を統合的に考慮することで、セマンティックセグメンテーションの性能が向上する。RGB-Depth画像におけるセマンティックセグメンテーションの主な課題の一つは、二つのモダリティをどのように融合・統合するかであり、各モダリティの利点を最大限に引き出し、同時に計算効率も確保する点にある。近年、深層畳み込みニューラルネットワーク(DCNN)を活用した手法が、早期融合、後期融合、中間融合といった戦略により、最先端の性能を達成している。本論文では、RGBとDepth画像の特徴マップ間の相互影響を効果的に統合するため、アテンションベースの融合ブロックを搭載した効率的なエンコーダ-デコーダモデルを提案する。このブロックは、二つのモダリティの特徴マップを連結したものを対象に、それらの相互依存関係を明示的に抽出することで、より強力な特徴マップをRGB-Depth画像から得ることを可能にする。NYU-V2、SUN RGB-D、Stanford 2D-3D-Semanticの3つの代表的な挑戦的データセットにおける広範な実験結果から、提案手法は計算コストおよびモデルサイズの点で既存の最先端モデルを上回ることが示された。また、実験結果は、提案する軽量なアテンションベースの融合モデルが、精度面でも有効であることを裏付けている。

RGB-Depth画像のセマンティックセグメンテーションのためのマルチモーダルアテンションベースの統合モデル | 最新論文 | HyperAI超神経