
초록
최근 몇 년간 이미지-텍스트 검색 기술은 급속도로 발전해 왔다. 그러나 원격 탐사 분야에서는 시각-의미 불균형 문제로 인해 비의미적 시각적 특징과 텍스트 특징이 잘못 매칭되는 문제가 여전히 존재한다. 이러한 문제를 해결하기 위해 우리는 시각과 언어 간의 관계를 탐색할 수 있는 새로운 방향 지향적 시각-의미 임베딩 모델(DOVE)을 제안한다. 본 연구의 핵심은 잠재 공간에서 시각적 표현과 텍스트 표현을 구성함과 동시에, 이들을 의미 중복이 없는 지역적 시각 표현에 가능한 한 가까이 정렬하는 것이다. 구체적으로, 지역적 시각 특징을 기반으로 하여 잠재적 의미 공간 내에서 최종 시각적 표현과 텍스트 표현 간의 거리를 적응적으로 조정하는 지역 지향적 어텐션 모듈(ROAM)을 도입한다. 동시에, 적은 어텐션 연산으로도 텍스트 표현의 범위를 확장하고 글로벌 단어 수준의 의미적 연결을 강화하기 위해 경량형 텍스트 게놈 탐색 보조기(DTGA)를 설계하였다. 마지막으로, 단일 시각적 종속성을 줄이고 최종 시각적 표현 및 텍스트 표현에 외부 제약 조건을 제공하기 위해 글로벌 시각-의미 제약 조건을 도입한다. 제안한 방법의 효과성과 우수성은 RSICD 및 RSITMD 두 가지 벤치마크 데이터셋에서 실시한 광범위한 실험을 통해 입증되었으며, 파라미터 평가, 정량적 비교, 아블레이션 연구 및 시각적 분석을 포함한다.