
시각 및 언어 사전학습(VLP, Visual and Language Pretraining)의 부상과 함께, 점점 더 많은 하류 작업들이 사전학습 후 미세조정(pretraining followed by fine-tuning)의 패러다임을 채택하고 있다. 이 패러다임은 다양한 다모달 하류 작업에서 잠재력을 입증하고 있으나, 원격 탐사 분야에 적용할 경우 몇 가지 도전 과제에 직면한다. 특히, 동일 모달 임베딩이 서로 뭉치는 경향이 효율적인 전이 학습을 방해한다. 이러한 문제를 해결하기 위해, 본 연구는 통합적인 관점에서 하류 작업을 위한 다모달 전이 학습의 목적을 재검토하고, 세 가지 독립적인 목적을 기반으로 최적화 과정을 재고한다. 이를 바탕으로, 작업 제약 조건, 모달 간 일치성, 단일 모달 균일성 일치를 동시에 만족하면서도 파라미터 효율적인 미세조정을 통해 학습 부담을 최소화하는 '조화로운 전이 학습 및 모달 일치(Harmonized Transfer Learning and Modality Alignment, HarMA)'를 제안한다. 특히, 외부 데이터를 추가로 학습에 활용하지 않음에도 불구하고, 원격 탐사 분야에서 널리 사용되는 두 가지 주요 다모달 검색 작업에서 최신 기술(SOTA, State-of-the-Art) 성능을 달성한다. 실험 결과, HarMA는 조정 가능한 파라미터 수가 극히 적음에도 불구하고, 완전 미세조정된 모델과 비교해 경쟁력 있는 물론이고, 때로는 더 우수한 성능을 보였다. 간결한 구조 덕분에 HarMA는 기존의 거의 모든 다모달 사전학습 모델에 쉽게 통합될 수 있다. 본 연구는 대규모 모델이 다양한 하류 작업에 효율적으로 적용되도록 도와주며, 자원 소비를 크게 줄일 수 있기를 기대한다. 코드는 https://github.com/seekerhuang/HarMA 에서 제공된다.