
要約
マルチスペクトル画像のペアは、組み合わせた情報を提供し、オープンワールドでの物体検出アプリケーションをより信頼性高く堅牢にすることができます。本稿では、異なるモダリティを完全に活用するために、単純かつ効果的なクロスモダリティ特徴量融合手法である「クロスモダリティフュージョントランスフォーマー(CFT)」を提案します。従来のCNNベースの手法とは異なり、トランスフォーマー方式に基づいてネットワークが長距離依存関係を学習し、特徴抽出段階で全体的なコンテキスト情報を統合します。さらに重要なのは、トランスフォーマーの自己注意機構を利用して、ネットワークが自然に同一モダリティ内および異なるモダリティ間の融合を行い、RGBと熱赤外線領域間の潜在的な相互作用を堅牢に捉えることができることです。これにより、マルチスペクトル物体検出の性能が大幅に向上します。複数のデータセットに対する広範な実験と省略研究により、当手法が効果的であり最先端の検出性能を達成していることが示されています。当方のコードとモデルは https://github.com/DocF/multispectral-object-detection から入手可能です。