
要約
多スペクトル歩行者検出は、色情報と熱画像情報を活用することで、照明不足条件下でも適応可能な特性を有している。一方で、これらの2つのモダリティを効果的に統合するための深い知見はまだ不足している。従来の歩行者検出と比較して、本研究では多スペクトル歩行者検出においてモダリティの不均衡問題が存在することを発見した。この不均衡は、二モダリティネットワークの最適化プロセスを妨げ、検出器の性能を低下させる要因となる。この観察に基づき、より柔軟かつバランスの取れた最適化を実現するため、モダリティバランスネットワーク(Modality Balance Network, MBNet)を提案する。まず、2つのモダリティが互いに補完し合うようにするため、新たな差分モダリティ認識統合(Differential Modality Aware Fusion, DMAF)モジュールを設計した。次に、照明条件に応じて補完的な特徴を選択し、2つのモダリティ特徴を適応的にアライメントする照明認識特徴アライメントモジュールを導入した。広範な実験結果により、KAISTおよびCVC-14という難易度の高い多スペクトル歩行者データセットにおいて、MBNetが既存の最先端手法と比較して、精度および計算効率の両面で優れた性能を発揮することが確認された。実装コードは以下のURLで公開されている:https://github.com/CalayZhou/MBNet。