
可視(RGB)および赤外線(IR)画像における物体検出は、24時間体制の応用における堅牢な検出を実現するための新興的かつ注目されるソリューションとして近年、広く注目を集めている。RGBとIR画像を統合して利用することで、実用的な場面において物体検出器の信頼性と耐障害性が向上している。しかし、従来の手法にはモダリティ間の不整合(modality miscalibration)および融合精度の欠如(fusion imprecision)といった課題が依然として残っている。変換器(Transformer)は異なる特徴間の対間相関を強力にモデル化できる点に着目し、本論文では、これらの二つの問題を同時に解決するための新しい「キャリブレート・コンプリメンタリー変換器」である $\mathrm{C}^2$Former を提案する。$\mathrm{C}^2$Former では、RGBモダリティとIRモダリティ間のクロスアテンション関係を学習することで、キャリブレートされたかつ補完的な特徴を獲得するための「モダリティ間クロスアテンション(Inter-modality Cross-Attention, ICA)」モジュールを設計している。ICAモジュールにおけるグローバルアテンションの計算による計算コストの増大を軽減するため、特徴マップの次元を削減する「適応的特徴サンプリング(Adaptive Feature Sampling, AFS)」モジュールを導入している。$\mathrm{C}^2$Former は特徴空間で動作するため、バックボーンネットワークを介して既存のRGB-IR物体検出器に容易に統合可能である。この特性を活かして、単段階型および二段階型の物体検出器にそれぞれ $\mathrm{C}^2$Former を組み込んだモデルを構築し、その有効性と汎用性を検証した。ドローン車両(DroneVehicle)およびKAIST RGB-IRデータセットを用いた広範な実験により、本手法がRGB-IR間の補完情報を効果的に活用でき、堅牢な検出結果を達成できることを確認した。実装コードは以下のURLから公開されている:https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git。