MiPa: 혼합 패치 적외선-가시광 객체 검출

실제 시나리오에서 가시광(RGB)과 적외선(IR) 같은 여러 모달을 사용하면 객체 검출(Object Detection, OD)과 같은 예측 작업의 성능을 크게 향상시킬 수 있습니다. 다중모달 학습은 이러한 모달들을 활용하는 일반적인 방법으로, 여러 모달별 인코더와 융합 모듈을 사용하여 성능을 개선합니다. 본 논문에서는 RGB와 IR 모달 중 하나만 단일 공유 비전 인코더가 관찰하는 다른 방식을 다룹니다. 이 실제적 설정은 더 낮은 메모리 용량을 필요로 하며, 자율 주행 및 감시와 같이 주로 RGB와 IR 데이터에 의존하는 응용 프로그램에 더 적합합니다. 그러나 여러 모달에서 단일 인코더를 학습할 때, 한 모달이 다른 모달을 지배할 수 있어 인식 결과가 불균형해질 수 있습니다. 본 연구는 이러한 모달 불균형의 영향을 완화하면서 RGB와 IR 모달을 효율적으로 활용하여 공통 트랜스포머 기반 OD 비전 인코더를 훈련시키는 방법을 조사합니다. 이를 위해 두 모달로부터 패치를 혼합(Mix Patches, MiPa)하는 새로운 훈련 기법과 함께, 패치별로 모달에 무관한 모듈(patch-wise modality agnostic module)을 도입하여 양쪽 모달의 공통 표현(common representation)을 학습합니다. 실험 결과, MiPa는 추론 시 단일 모달만 필요로 하면서도 전통적인 RGB/IR 벤치마크에서 경쟁력 있는 결과를 달성할 수 있음을 보여줍니다. 본 연구의 코드는 다음 링크에서 확인 가능합니다: https://github.com/heitorrapela/MiPa.