원격 탐사 데이터를 위한 자기지도형 음성시각 표현 학습

현재 많은 딥러닝 접근법은 ImageNet과 같은 대규모 데이터셋으로 사전 훈련된 백본 네트워크를 광범위하게 활용하며, 이후 특정 작업에 맞춰 미세 조정(fine-tuning)을 수행한다. 그러나 원격 탐사 분야에서는 유사한 대규모 주석 데이터셋이 부족하고 센서 플랫폼의 다양성이 크기 때문에 이러한 발전이 제한된다. 원격 탐사 분야에서 사전 훈련된 백본 네트워크의 가용성을 높이기 위해, 우리는 레이블이 전혀 필요 없는 자기지도 학습(self-supervised learning) 방식을 제안한다. 이 방법은 지리정보 태그가 부여된 음성 기록과 원격 탐사 영상 간의 대응 관계를 활용하여 완전히 레이블 없이 사전 훈련을 수행한다. 이를 위해 전 세계적으로 공통된 위치에 배치된 항공 영상과 음성 샘플로 구성된 SoundingEarth 데이터셋을 소개한다. 이 데이터셋을 이용해 ResNet 모델을 사전 훈련하여, 두 모달리티(시각과 청각)의 샘플을 동일한 임베딩 공간에 매핑하도록 한다. 이는 모델이 시각적 및 청각적 외관에 영향을 미치는 장면의 핵심 특성을 이해하도록 유도한다. 제안된 접근법의 유용성을 검증하기 위해, 다른 방법으로 얻은 가중치와 비교하여 사전 훈련된 가중치의 전이 학습 성능을 평가한다. 다양한 일반적으로 사용되는 원격 탐사 데이터셋에서 모델을 미세 조정한 결과, 기존의 원격 탐사 영상 사전 훈련 전략보다 제안한 방법이 우수한 성능을 보였다. 본 연구의 데이터셋, 코드, 사전 훈련된 모델 가중치는 https://github.com/khdlr/SoundingEarth 에 공개될 예정이다.