
要約
セマンティックシーン理解は自動運転における基本的なタスクであり、多くの下流タスクの基盤となる。特に照明条件が厳しい状況下では、赤外線画像(Thermal画像)がRGB画像に対して補完的な情報を提供することができる。これに伴い、RGB-Thermalデータを用いたセマンティックシーン理解を目的とした多数のマルチモーダル融合ネットワークが提案されてきた。しかし、現在の最先端手法は、RGB画像と熱画像の内在的な特徴に基づいた融合手法の設計をせず、単に複数モダリティの特徴をネットワークによって不透明に融合しているにとどまっている。この問題に対処するため、本研究では、照明推定モジュールによって生成された重みマスクを用いて、異なる段階でのRGB特徴マップと熱特徴マップを適切に重み付けする、照明誘導型融合ネットワーク(IGFNet)を提案する。実験結果から、MFNetデータセットにおいて本ネットワークが最先端手法を上回る性能を発揮することが示された。本研究のコードは以下のURLから公開されている:https://github.com/lab-sun/IGFNet。