글로벌–로컬 정보 소프트 애라이먼트를 통한 크로스모달 원격 감지 이미지–텍스트 검색
크로스모달 원격탐사 이미지-텍스트 검색(CMRSITR)은 텍스트 기술을 바탕으로 대상 원격탐사(RS) 이미지를 검색하는 데 목적이 있는 도전적인 과제이다. 그러나 텍스트와 RS 이미지 사이의 모달 갭은 중요한 과제를 제기한다. RS 이미지는 다수의 타깃과 복잡한 배경을 포함하고 있어, 효과적인 CMRSITR를 위해 전역적 및 국소적 정보(GaLR)를 동시에 탐색하는 것이 필요하다. 기존의 접근 방식들은 주로 국소적 이미지 특징에 집중하면서 텍스트의 국소적 특징과 그 상응성을 간과한다. 이러한 방법들은 일반적으로 전역적 및 국소적 이미지 특징을 융합하여 전역적 텍스트 특징과 정렬하지만, 복잡한 배경의 영향을 효과적으로 제거하지 못하거나 중요한 타깃을 간과할 수 있다. 이러한 한계를 해결하기 위해, 우리는 트랜스포머 아키텍처 기반의 새로운 프레임워크를 제안하며, 전역-국소 정보 소프트 정렬(GLISA)을 활용하여 검색 성능을 향상시킨다. 제안하는 프레임워크는 이미지-텍스트 쌍의 전역적 의미 특징을 캡처하고 RS 이미지 내 다수의 타깃 간 관계를 효과적으로 표현하는 전역 이미지 추출 모듈을 포함한다. 또한, RS 이미지와 텍스트 양쪽에서 구분력 있는 국소적 단서를 적응적으로 탐색하고, 대응하는 세부 정보를 정렬하는 적응형 국소 정보 추출(ALIE) 모듈을 도입한다. 국소 특징 정렬 과정에서 발생할 수 있는 의미적 모호성을 완화하기 위해, 국소 정보 소프트 정렬(LISA) 모듈을 설계하였다. 두 개의 공개 CMRSITR 데이터셋을 활용한 비교 평가 결과, 제안하는 방법은 전통적인 크로스모달 검색 기법을 물론, 다른 대조적 언어-이미지 사전학습(CLIP) 기반 방법들보다도 뛰어난 성능을 달성하며, 최신 기술 수준(SOTA)을 확보하였다.