9일 전

대규모 원격 감지 데이터셋에서 효율적인 마스크된 이미지 모델링 확장하기

Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun
대규모 원격 감지 데이터셋에서 효율적인 마스크된 이미지 모델링 확장하기
초록

마스크 이미지 모델링(Masked Image Modeling, MIM)은 원격 탐사(Remote Sensing, RS) 분야에서 기초 시각 모델을 구축하는 데 필수적인 방법으로 부상하고 있다. 그러나 기존 RS 데이터셋의 크기와 다양성에 한계가 존재하여 MIM 기법이 일반화된 표현을 학습하는 데 제약이 있다. 또한 기존의 MIM 기법은 모든 토큰을 재구성해야 하는 구조로 인해 불필요한 계산 부담을 초래한다. 이러한 문제를 해결하기 위해, 대규모 RS 데이터셋 구축과 효율적인 MIM 접근 방식을 포함하는 새로운 사전 훈련 파이프라인을 제안한다. 우리는 공개된 RS 데이터셋을 수집하고 제거, 자르기, 중복 제거 등의 처리 과정을 거쳐 고품질의 데이터셋인 OpticalRS-13M을 구축하였다. OpticalRS-13M은 객체 탐지, 픽셀 분할 등 다양한 RS 작업을 커버하는 총 1,300만 장의 광학 이미지를 포함한다. 효율성 향상을 위해, RS 이미지 내 반복적인 배경 픽셀로 인한 비효율을 줄이기 위해 의미적으로 풍부한 패치 토큰만 동적으로 인코딩하고 재구성하는 SelectiveMAE라는 사전 훈련 방법을 제안한다. 광범위한 실험을 통해 OpticalRS-13M이 분류, 탐지, 분할 성능을 크게 향상시키고, SelectiveMAE는 기존 MIM 모델 대비 훈련 효율을 2배 이상 증가시킴을 입증하였다. 이는 본 연구의 파이프라인이 RS 기초 모델 개발에 있어 효과적이고 확장 가능한 잠재력을 지닌다는 것을 시사한다.