要約
RGB-T(赤・緑・青および赤外線)シーン解析は、近年、大きな研究関心を集めている。既存の手法はRGB-Tシーン解析を効率的に行うことができるものの、受容fieldが小さいことにより性能に限界がある。マルチスケール特徴の融合や注目メカニズムを用いてグローバルなコンテキストを捉える手法とは異なり、本研究では、分岐から得られる長距離依存関係を活用し、デコーダによって生成された粗いセマンティックマップを精緻化する「グラフ強化ブランチネットワーク(GEBNet)」を提案する。グラフ強化ブランチ内に組み込まれたセマンティックモジュールとディテールモジュールにより、高レベルおよび低レベルの特徴が融合される。さらに、グラフニューラルネットワークがグローバルコンテキストを捉える能力に着想を得て、高レベルのセマンティック情報と低レベルの詳細情報を統合してグローバル情報を取得するための新規グラフ強化モジュールをネットワークのブランチに統合した。MFNetおよびPST900データセットにおける広範な実験結果から、提案するGEBNetの優れた性能および主要構成要素が解析性能に与える寄与が明らかになった。