세멘틱 혼동 감소: 원격 탐사 교차 모달 검색을 위한 장면 인지 집합 네트워크
최근 원격 탐사의 교차 모달 검색에 대한 연구자들의 관심이 급증하고 있다. 그러나 원격 탐사 이미지의 고유한 특성으로 인해 의미 공간 내에서 많은 의미 혼동 영역이 발생하며, 이는 검색 성능에 큰 영향을 미친다. 본 연구에서는 장면 인지 능력을 향상시켜 의미 혼동을 줄이는 새로운 장면 인지 집계 네트워크(SWAN, Scene-aware Weighted Aggregation Network)를 제안한다. 시각적 표현 측면에서는 다양한 스케일의 시각적 특징을 융합하는 시각적 다중 스케일 융합 모듈(VMSF, Visual Multiscale Fusion)을 도입하여 시각적 표현의 기본 구조를 구성한다. 동시에, 다양한 미세도 수준의 주목할 만한 특징 간의 관계를 구축하기 위한 장면 미세 감지 모듈(SFGS, Scene Fine-grained Sensing)을 제안한다. 이 두 모듈이 생성하는 시각 정보를 통합하여 장면 인지 시각적 집계 표현을 형성한다. 텍스트 표현 측면에서는 텍스트의 의미를 강화하고 시각 정보와의 정렬을 도모하기 위해 텍스트 거시적 강화 모듈(TCGE, Textual Coarse-grained Enhancement)을 설계하였다. 또한 원격 탐사 장면의 다양성과 차별성 감소로 인해 장면 이해가 약화되는 문제를 고려하여, 장면 수준의 검색 성능을 평가함으로써 장면 인지 능력을 측정하는 새로운 지표인 '장면 재현율(Scenario Recall)'을 제안하였다. 이 지표는 본 연구의 접근법이 의미 혼동을 줄이는 데 효과적임을 검증하는 데도 활용될 수 있다. 두 데이터셋인 RSICD와 RSITMD에서 성능 비교, 아블레이션 연구 및 시각화 분석을 통해 제안한 방법의 효과성과 우수성을 검증하였다. 소스 코드는 다음 링크에서 확인할 수 있다: https://github.com/kinshingpoon/SWAN-pytorch.