RS5M 및 GeoRSCLIP: 원격 탐사용 대규모 시각-언어 데이터셋과 대규모 시각-언어 모델

사전 훈련된 시각-언어 모델(Vision-Language Models, VLMs)은 방대한 이미지-텍스트 쌍 데이터를 활용하여 기존에 없었던 이미지-텍스트 연관성 인식 능력을 보여주며, 다양한 하류 작업에서 뛰어난 성과를 달성하고 있다. 그러나 중요한 과제는 일반적인 객체에 대해 훈련된 대규모 사전 훈련된 VLMs를 어떻게 활용하여 특정 도메인에 맞는 전이 학습을 수행하고, 도메인 관련 하류 작업을 성공적으로 수행할 수 있는가이다. 본 논문에서는 일반 시각-언어 모델(GVLM)과 도메인 특화 하류 작업 사이의 격차를 메우는 새로운 프레임워크를 제안한다. 이를 위해 도메인 사전 훈련된 시각-언어 모델(Domain pre-trained Vision-Language Model, DVLM)을 도입하였다. 또한 원격 감지(Remote Sensing, RS) 분야의 이미지-텍스트 쌍 데이터셋인 RS5M을 제시한다. RS5M은 500만 장의 원격 감지 이미지와 영문 설명을 포함하며, 공개된 이미지-텍스트 쌍 데이터셋을 필터링하고, 사전 훈련된 VLM을 활용하여 레이블만 있는 RS 데이터셋에 대한 설명을 생성함으로써 구축되었다. 이는 최초의 대규모 원격 감지 이미지-텍스트 쌍 데이터셋이다. 더불어, CLIP 모델을 RS5M에 대해 미세 조정(fine-tuning)하고, 다양한 파라미터 효율적인 미세 조정(Parameter-Efficient Fine-Tuning, PEFT) 방법들을 적용하여 DVLM을 구현하였다. 실험 결과, 제안한 데이터셋이 다양한 작업에 매우 효과적임을 입증하였으며, 제안 모델인 GeoRSCLIP은 제로샷 분류(Zero-shot Classification, ZSC)에서 기준 모델 또는 이전 최고 성능 모델 대비 3%~20% 향상되었고, 원격 감지 크로스모달 텍스트-이미지 검색(Remote Sensing Cross-Modal Text-Image Retrieval, RSCTIR)에서는 3%~6% 향상되었으며, 의미적 위치 추정(Semantic Localization, SeLo)에서는 4%~5% 개선되었다. 데이터셋 및 모델은 다음과 같은 링크에서 공개되었다: \url{https://github.com/om-ai-lab/RS5M}.