要約
歩行者検出は、安全に重大な影響を及ぼすシステムにおいて重要なタスクであるが、低照度環境や悪天候条件下では歩行者の検出が困難である。熱画像は、RGB画像と補完的な情報を提供することで、システムのロバスト性を向上させるために有効である。従来の研究では、畳み込み演算を用いたマルチモーダル特徴融合が有効であることが示されてきたが、こうした手法は局所的な特徴相関に依存しており、性能の低下を引き起こす可能性がある。この問題に対処するために、本研究では、グローバルなスペクトル内およびスペクトル間情報の捕捉を可能にする、注目機構を用いた新たな融合ネットワーク、すなわちINSANet(INtra-INter Spectral Attention Network)を提案する。本ネットワークは、スペクトル内およびスペクトル間の相互関係を学習できるスペクトル内・スペクトル間注目ブロックから構成されている。さらに、複数の要因によって引き起こされるマルチスペクトルデータセット内の不均衡を特定し、歩行者の位置分布が集中する問題を緩和するための増強戦略を設計した。広範な実験により、提案手法の有効性が確認され、KAISTデータセットおよびLLVIPデータセットにおいて、最先端の性能を達成した。最後に、地域別性能評価を実施し、提案ネットワークがさまざまな地域環境においても有効であることを示した。