$\mathbf{C}^2$Former: RGB-적외선 객체 탐지를 위한 보정 및 보완적인 Transformer

가시광선(RGB) 및 적외선(IR) 영상에서의 객체 탐지 기술은 24시간 운영이 가능한 안정적인 탐지 시스템 구현을 위한 새로운 해결책으로 최근 많은 주목을 받고 있다. RGB와 IR 이미지를 결합한 정보를 활용함으로써 객체 탐지기는 실제 응용에서 더욱 신뢰성 있고 강건한 성능을 발휘할 수 있다. 그러나 기존의 방법들은 여전히 모달리티 불일치(calibration) 및 융합 정밀도 부족(fusion imprecision) 문제에 직면해 있다. 트랜스포머는 다양한 특징 간의 쌍별 상관관계를 효과적으로 모델링할 수 있는 강력한 능력을 지니고 있다는 점에 착안하여, 본 논문에서는 이러한 두 가지 문제를 동시에 해결하기 위한 새로운 보정 및 보완형 트랜스포머인 $\mathrm{C}^2$Former을 제안한다. $\mathrm{C}^2$Former에서는 RGB와 IR 모달리티 간의 교차 주의(cross-attention) 관계를 학습함으로써 보정된 보완 특징을 추출하는 인모달리티 교차 주의(Inter-modality Cross-Attention, ICA) 모듈을 설계하였다. ICA 모듈에서 전체 영역에 대한 주의를 계산하는 데 발생하는 계산 부담을 줄이기 위해, 특징 맵의 차원을 감소시키는 적응형 특징 샘플링(Adaptive Feature Sampling, AFS) 모듈을 도입하였다. $\mathrm{C}^2$Former은 특징 도메인에서 동작하므로, 백본 네트워크를 통해 기존의 RGB-IR 객체 탐지기에 간편하게 통합 가능하다. 이를 바탕으로 단일 단계(single-stage) 및 이중 단계(two-stage) 객체 탐지기 두 가지 구조에 본 $\mathrm{C}^2$Former을 통합하여 그 효과성과 유연성을 평가하였다. 드론차량(DroneVehicle) 및 KAIST RGB-IR 데이터셋을 대상으로 수행한 광범위한 실험을 통해, 본 방법이 RGB-IR 간의 보완적 정보를 효과적으로 활용함과 동시에 강건한 탐지 성능을 달성함을 입증하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git.