15일 전

원격 탐사 이미지-텍스트 검색을 위한 파라미터 효율적인 전이 학습

Yuan Yuan, Yang Zhan, Zhitong Xiong
원격 탐사 이미지-텍스트 검색을 위한 파라미터 효율적인 전이 학습
초록

시각-언어 사전학습(Vision-and-language pre-training, VLP) 모델은 최근 급격한 인기를 끌고 있다. 특정 데이터셋에 대해 미세조정(fine-tuning)을 수행함으로써 다양한 작업에서 뛰어난 성능 향상을 관찰할 수 있다. 그러나 VLP 모델의 전체 미세조정은 막대한 계산 자원을 소모할 뿐만 아니라 환경적 영향도 크다. 게다가 원격 탐사(remote sensing, RS) 데이터는 지속적으로 갱신되고 있으므로, 전체 미세조정은 실용적 응용에 있어 현실적으로 어려운 문제를 안고 있다. 이러한 문제를 해결하기 위해 본 연구에서는 이미지-텍스트 검색 작업을 대상으로 자연계 도메인에서의 시각-언어 지식을 원격 탐사 도메인으로 효과적이고 효율적으로 전이하기 위해 파라미터 효율적 전이학습(Parameter-Efficient Transfer Learning, PETL) 방법을 탐구한다. 이를 위해 다음과 같은 기여를 한다. 1) 원격 탐사 이미지-텍스트 검색(RS image-text retrieval, RSITR) 작업을 위한 새로운 복합적인 PETL 프레임워크를 구축하였으며, 이는 사전학습된 CLIP 모델, 다중모달 원격 탐사 어댑터, 그리고 하이브리드 다중모달 대조(Hybrid Multi-modal Contrastive, HMMC) 학습 목표를 포함한다. 2) RS 데이터에서 내부 모달 간 높은 유사성 문제를 해결하기 위해 간단하면서도 효과적인 HMMC 손실 함수를 설계하였다. 3) PETL 기반의 RS 이미지-텍스트 검색에 대한 포괄적인 실험적 분석을 제공하였다. 실험 결과, 제안된 방법이 실용적 응용에 있어 매우 유망하고 큰 잠재력을 지닌다는 것을 입증하였다. 4) RSITR 작업에서 최신의 다양한 PETL 방법들을 포괄적으로 벤치마킹하였다. 제안된 모델은 학습 가능한 파라미터가 단 0.16M에 불과하며, 전체 미세조정 대비 98.9%의 파라미터 감소를 달성하여 학습 비용을 크게 절감할 수 있다. 검색 성능은 기존 전통적 방법보다 7~13% 우수하며, 전체 미세조정과 비교해도 유사하거나 더 뛰어난 성능을 기록하였다. 본 연구는 원격 탐사 시각-언어 작업에 새로운 통찰과 유용한 아이디어를 제공할 수 있다.

원격 탐사 이미지-텍스트 검색을 위한 파라미터 효율적인 전이 학습 | 최신 연구 논문 | HyperAI초신경