15일 전

RemoteCLIP: 원격 감지용 시각-언어 기반 모델

Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou
RemoteCLIP: 원격 감지용 시각-언어 기반 모델
초록

일반 목적의 기반 모델은 최근 인공지능 분야에서 획기적인 성과를 이끌어냈다. 원격 탐사 분야에서는 자기 지도 학습(self-supervised learning, SSL)과 마스크된 이미지 모델링(Masked Image Modeling, MIM)이 기반 모델 구축에 활용되고 있다. 그러나 이러한 모델들은 주로 저수준 특징을 학습하며, 미세 조정(fine-tuning)을 위해 레이블링된 데이터를 필요로 한다. 또한 언어 이해 능력이 부족하여 검색(retrieval) 및 제로샷(zero-shot) 응용에 적합하지 않다. 이러한 한계를 극복하기 위해, 우리는 원격 탐사 분야에서 처음으로 시각-언어 기반 모델인 RemoteCLIP을 제안한다. 이 모델은 풍부한 의미를 지닌 강력한 시각적 특징과 일치하는 텍스트 임베딩을 학습함으로써, 다양한 후속 작업에 원활하게 적용될 수 있도록 목표를 설정하였다. 학습 데이터의 부족 문제를 해결하기 위해, 데이터 확장(data scaling) 기법을 활용하여 Box-to-Caption(B2C) 및 Mask-to-Box(M2B) 변환 기반으로 이질적인 레이블을 통일된 이미지-캡션 형식으로 변환하였다. 또한 무인 항공기(UAV) 이미지를 추가함으로써, 기존 모든 데이터셋의 합보다 12배 더 큰 사전 학습 데이터셋을 생성하였다. RemoteCLIP은 제로샷 이미지 분류, 선형 탐사(linear probing), k-최근접 이웃(k-NN) 분류, 소량 샘플 분류, 원격 탐사 이미지 내 이미지-텍스트 검색, 객체 수 세기 등 다양한 후속 작업에 적용 가능하다. 새로 도입된 RemoteCount 벤치마크를 포함한 총 16개의 데이터셋에서 수행된 평가 결과, 다양한 모델 규모에서 기준 기반 모델들을 일관되게 상회함을 확인하였다. 특히 RSITMD 데이터셋에서는 최신 기술(SOTA) 방법보다 평균 재현율(mean recall) 9.14% 우수하고, RSICD 데이터셋에서는 8.92% 우수한 성능을 기록하였다. 제로샷 분류에서는 12개의 후속 데이터셋에서 CLIP 기준 모델 대비 최대 6.39%의 평균 정확도 향상을 달성하였다. 프로젝트 웹사이트: https://github.com/ChenDelong1999/RemoteCLIP

RemoteCLIP: 원격 감지용 시각-언어 기반 모델 | 최신 연구 논문 | HyperAI초신경