15일 전

원격 감지 이미지-텍스트 검색을 위한 사전 지시 표현 프레임워크

{Cong Bai, Qing Ma, Jiancheng Pan}
초록

본 논문은 원격 탐사 영상-텍스트 검색을 위한 사전 지식 지시 표현 프레임워크(Prior Instruction Representation, PIR)를 제안하며, 원격 탐사 시각-언어 이해 작업을 목표로 의미 노이즈 문제를 해결하고자 한다. 본 연구의 핵심은 시각 및 텍스트 표현의 적응적 학습을 위해 사전 지식을 활용하는 새로운 패러다임을 제안한 점이다. 구체적으로, 장거리 의존성 모델링을 수행하여 핵심 특징 표현을 강화하기 위해 두 가지 점진적 주의력 인코더(Progressive Attention Encoder, PAE) 구조인 공간-PAE(Spatial-PAE)와 시간-PAE(Temporal-PAE)를 제안한다. 시각 표현에서는 공간-PAE 기반의 시각 지시 표현(Vision Instruction Representation, VIR)이 민감한 특징 선택을 위해 믿음 행렬( belief matrix)을 구성함으로써 원격 탐사 장면 인식에 대한 사전 지식을 기반으로 한 지도적 지식을 활용하여 의미 노이즈의 영향을 감소시킨다. 텍스트 표현에서는 시간-PAE 기반의 언어 사이클 주의력(Language Cycle Attention, LCA)이 이전 시점 정보를 활용하여 현재 시점의 주의력을 순환적으로 활성화함으로써 텍스트 표현 능력을 향상시킨다. 또한, 공통 부분 공간 내에서 클래스 간 혼동 영역을 줄이기 위해 클러스터 기반 소속 손실(cluster-wise affiliation loss)을 제안한다. 포괄적인 실험을 통해 사전 지식 지시 전략이 시각 및 텍스트 표현을 강화할 수 있으며, RSICD 및 RSITMD 두 가지 벤치마크 데이터셋에서 최신 기술(SOTA)을 초월하는 성능을 달성함을 입증하였다.

원격 감지 이미지-텍스트 검색을 위한 사전 지시 표현 프레임워크 | 최신 연구 논문 | HyperAI초신경