17일 전

세부적인 스케치 기반 이미지 검색을 위한 심층 공간-의미적 어텐션

{Yi-Zhe Song, Qian Yu, Jifei Song, Timothy M. Hospedales, Tao Xiang}
세부적인 스케치 기반 이미지 검색을 위한 심층 공간-의미적 어텐션
초록

인간이 그린 스케치는 시각적 객체의 공간적 토폴로지뿐 아니라 미묘한 외관적 세부 정보까지 포착할 수 있다는 점에서 독특하다. 미세한 세부 사항을 기반으로 한 이미지 검색(FG-SBIR)은 이러한 스케치의 미세한 특징을 적극 활용하여 사진의 인스턴스 수준 검색을 수행한다. 그러나 인간의 스케치는 종종 매우 추상적이고 상징적이어서 후보 사진과 심각한 비일치를 초래하며, 이로 인해 미세한 시각적 세부 정보 간의 매칭이 어려워진다. 기존의 FG-SBIR 접근법은 깊이 있는 다중 도메인 표현 학습을 통해 거시적 전반적인 매칭에 집중하지만, 미세한 세부 정보와 그 공간적 맥락을 명시적으로 고려하지 않는다. 본 논문에서는 기존 모델과 크게 다른 새로운 딥 FG-SBIR 모델을 제안한다. 제안된 모델의 주요 특징은 다음과 같다: (1) 시각적 세부 정보의 공간적 위치에 민감한 주의(attention) 모듈을 도입함으로써 공간 인식 능력을 갖춘 점; (2) 단순 연결(fusion block)을 통해 거시적 및 미세한 의미 정보를 통합하는 점; (3) 새로운 고차원 학습 가능한 에너지 함수(HOLEF) 기반 손실 함수를 도입하여 두 도메인 간 추출된 특성 간의 비일치에 강건하면서도 특성 간 상관관계를 모델링하는 점. 광범위한 실험 결과는 제안된 깊이 있는 공간-의미 주의 모델이 기존 최고 수준의 기법을 상당히 초월함을 보여준다.