원격 탐사 크로스모달 텍스트-이미지 검색: 전역 및 국부 정보 기반 접근

다중모달 원격탐사 텍스트-이미지 검색(RSCTIR)은 원격탐사(RS) 이미지에서 빠르고 유연한 정보 추출을 가능하게 한다는 점에서 최근 긴급한 연구 주제로 부상하고 있다. 그러나 기존의 RSCTIR 기법들은 주로 RS 이미지의 전역 특징에 집중하고 있어, 대상 간 관계와 주목성(attention)을 반영하는 국소 특징을 간과하는 경향이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 전역 및 국소 정보를 기반으로 하는 새로운 RSCTIR 프레임워크인 GaLR(Goal and Local Representation)을 제안하고, 다양한 수준의 특징을 효과적으로 통합하기 위한 다중 수준 정보 동적 융합(MIDF) 모듈을 설계하였다. MIDF 모듈은 국소 정보를 통해 전역 정보를 보정하고, 전역 정보를 활용해 국소 정보를 보완하며, 두 정보의 동적 합성을 통해 강한 시각적 표현을 생성한다. 또한, 그래프 합성망(GCN)의 과도한 중복 대상에 대한 부담을 완화하고 국소 특징 모델링 시 모델이 주목성 있는 인스턴스에 더 집중할 수 있도록, 노이즈 제거 표현 행렬과 강화된 인접 행렬(DREA)을 제안하였다. DREA는 유사도가 높은 부정확한 특징을 필터링할 뿐만 아니라, 주목성 있는 객체의 특징을 강화함으로써 더 강력한 국소 특징을 추출한다. 마지막으로, 추론 과정에서 유사도 행렬 내 정보를 최대한 활용하기 위해 플러그 앤 플레이 가능한 다변량 재정렬(MR) 알고리즘을 제안하였다. 이 알고리즘은 검색 결과의 k개 근접 이웃을 기반으로 역방향 검색을 수행하고, 양방향 검색의 여러 구성 요소를 결합함으로써 성능을 향상시킨다. 공개 데이터셋을 대상으로 실시한 광범위한 실험을 통해 GaLR 방법이 RSCTIR 과제에서 최첨단 성능을 입증하였다. GaLR 방법, MR 알고리즘 및 관련 파일은 https://github.com/xiaoyuan1996/GaLR 에 공개되어 있다.