弱いアライメントに基づくクロスモーダル学習によるマルチスペクトラル歩行者検出

マルチスペクトル歩行者検出は、熱画像モダリティが色情報に補完的な情報を提供するため、低照度条件下で大きな利点を示しています。しかし、実際のマルチスペクトルデータには位置ずれ問題が存在します。つまり、色情報と熱情報の画像ペアが厳密に合わせられておらず、同じ物体が異なるモダリティで異なる位置に表示されることがあります。深層学習に基づく手法では、この問題により両モダリティからの特徴マップの融合が難しくなり、CNNの学習を混乱させる原因となっています。本論文では、弱い対応関係を持つマルチスペクトルデータをエンドツーエンドで処理する新しいアライド・リージョンCNN(AR-CNN)を提案します。まず、リージョン特徴アライメント(RFA)モジュールを設計し、位置ずれを捉え、両モダリティの領域特徴を適応的に合わせます。次に、新しいマルチモーダル融合手法を提示し、より信頼性の高い特徴を選択し、不要な特徴を抑制するための特徴再重み付けを行います。さらに、異なるデバイスやシステム設定による予期せぬずれパターンに対する堅牢性を向上させるために、新たなRoIジッタ戦略を提案します。最後に、当手法は各モダリティに対応したバウンディングボックスという新しい種類のラベリングに依存しているため、KAISTデータセットに対して両モダリティでのバウンディングボックスの位置決めを行い、それらの関係性を構築することで手動で再ラベリングを行い、新たなKAIST-Paired Annotation(KAIST-対応注釈)を提供しています。既存のデータセットにおける広範な実験検証を行い、提案手法の有効性と堅牢性が示されています。コードとデータはhttps://github.com/luzhang16/AR-CNN から入手可能です。