15일 전

세밀한 다중스케일 방법을 통한 크로스모달 원격 탐사 이미지 검색 탐구

Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang, Xian Sun
세밀한 다중스케일 방법을 통한 크로스모달 원격 탐사 이미지 검색 탐구
초록

원격 탐사(Remote Sensing, RS)의 다중 모달 텍스트-이미지 검색은 입력의 유연성과 효율적인 쿼리 처리라는 장점을 바탕으로 광범위한 주목을 받고 있다. 그러나 기존의 방법들은 RS 이미지 내 다중 규모(multi-scale) 및 중복 대상(target redundancy)의 특성을 무시함으로써 검색 정확도가 저하되는 문제를 안고 있다. RS 다중 모달 검색 작업에서 다중 규모 부족과 대상 중복 문제를 해결하기 위해, 본 연구에서는 새로운 비대칭 다중 모달 특징 매칭 네트워크(Asymmetric Multimodal Feature Matching Network, AMFMN)를 제안한다. 제안된 모델은 다중 규모 특징 입력에 적응 가능하며, 다중 소스 검색 방법을 지원하고, 동적으로 중복 특징을 필터링할 수 있다. AMFMN은 다중 규모 시각적 자기 주의(Multi-scale Visual Self-attention, MVSA) 모듈을 활용하여 RS 이미지의 주목할 만한 특징을 추출하고, 시각적 특징을 기반으로 텍스트 표현을 안내한다. 또한, RS 이미지 내 대내 유사도(intraclass similarity)가 강해 긍정 샘플의 모호성이 발생하는 문제를 완화하기 위해, 샘플 쌍의 사전 유사도를 기반으로 동적 변동 마진(dynamic variable margin)을 적용한 트리플렛 손실 함수를 제안한다. 마지막으로, 기존의 RS 이미지-텍스트 데이터셋이 텍스트 정보가 대략적이고 대내 유사도가 높은 반면, 본 연구는 키워드와 문장으로 별도 및 통합적으로 RS 이미지 검색이 가능한 보다 세밀하고 도전적인 원격 탐사 이미지-텍스트 매칭 데이터셋(Remote Sensing Image-Text Match Dataset, RSITMD)을 구축하였다. 네 개의 RS 텍스트-이미지 데이터셋에서 수행한 실험 결과, 제안된 모델이 다중 모달 RS 텍스트-이미지 검색 작업에서 최신 기술(SOTA) 수준의 성능을 달성함을 입증하였다.

세밀한 다중스케일 방법을 통한 크로스모달 원격 탐사 이미지 검색 탐구 | 최신 연구 논문 | HyperAI초신경