UniRGB-IR: 어댑터 튜닝을 통한 가시광선-적외선 세미틱 태스크를 위한 통합 프레임워크

가시광선(RGB) 및 적외선(IR) 이미지에 대한 의미 분석은 저조도 및 악천후와 같은 도전적인 환경에서도 높은 정확도와 강건성을 제공하기 때문에 최근 큰 주목을 받고 있다. 그러나 대규모 적외선 이미지 데이터셋에 기반한 사전 학습된 기초 모델(Foundation Model)이 부족한 상황에서, 기존의 방법들은 특정 작업에 맞춘 프레임워크를 설계하고, RGB-IR 의미적 관련성 데이터셋에서 사전 학습된 기초 모델을 직접 미세조정하는 방식을 선호하고 있다. 이로 인해 확장성과 일반화 능력이 제한되는 문제가 발생한다. 이러한 한계를 해결하기 위해, 본 연구는 사전 학습된 RGB 기반 기초 모델에 풍부한 다중모달 특징을 효과적으로 통합할 수 있는 새로운 어댑터 메커니즘을 도입한 확장 가능하고 효율적인 RGB-IR 의미 분석 프레임워크인 UniRGB-IR을 제안한다. 제안하는 프레임워크는 세 가지 핵심 구성 요소로 구성되며, 시각 트랜스포머(ViT) 기초 모델, 다중모달 특징 풀(Multi-modal Feature Pool, MFP) 모듈, 보조 특징 주입기(Supplementary Feature Injector, SFI) 모듈로 이루어져 있다. MFP 및 SFI 모듈은 상호 보완적으로 작용하여 ViT의 특징에 맥락적 다중 스케일 특징을 효과적으로 보완한다. 학습 과정에서는 전체 기초 모델을 고정하여 기존 지식을 유지하고, MFP 및 SFI 모듈만 최적화한다. 또한 본 프레임워크의 효과를 검증하기 위해 ViT-Base를 사전 학습된 기초 모델로 활용하여 광범위한 실험을 수행하였다. 다양한 RGB-IR 의미 분석 작업에 대한 실험 결과는 제안한 방법이 최첨단 성능을 달성함을 입증한다. 소스 코드 및 실험 결과는 다음 링크에서 확인할 수 있다: https://github.com/PoTsui99/UniRGB-IR.git.