17일 전

텍스트 유도 이미지 검색을 위한 순위 인지 불확실성

Junyang Chen, Hanjiang Lai
텍스트 유도 이미지 검색을 위한 순위 인지 불확실성
초록

텍스트 유도 이미지 검색은 사용자의 의도를 더 잘 포착하기 위해 조건부 텍스트를 통합하는 기술이다. 기존의 방법들은 주어진 삼중항 $\langle$원본 이미지, 원본 텍스트, 대상 이미지$\rangle$을 활용하여 원본 입력과 대상 이미지 간의 임베딩 거리를 최소화하는 데 초점을 맞추고 있다. 그러나 이러한 삼중항 최적화 방식은 학습된 검색 모델이 더 세부적인 순위 정보를 포착하는 데 한계를 가질 수 있으며, 예를 들어 삼중항이 일대일 대응 관계에만 국한되며, 피드백 텍스트와 이미지의 의미적 다양성으로 인해 발생하는 다대다 대응 관계를 반영하지 못한다는 문제가 있다. 더 많은 순위 정보를 포착하기 위해, 본 연구에서는 제공된 삼중항만을 사용하여 다대다 대응 관계를 모델링하는 새로운 순위 인지 불확실성 기반 접근법을 제안한다. 우리는 불확실성 학습을 도입하여 특징의 확률적 순위 목록을 학습한다. 구체적으로 제안하는 방법은 세 가지 주요 구성 요소로 이루어져 있다. (1) 내표본 불확실성(In-sample uncertainty): 결합된 특징과 대상 특징을 기반으로 얻은 가우시안 분포를 활용하여 의미적 다양성을 포착한다. (2) 교차표본 불확실성(Cross-sample uncertainty): 다른 샘플들의 분포로부터 추가적인 순위 정보를 탐색한다. (3) 분포 정규화(Distribution regularization): 원본 입력과 대상 이미지의 분포 표현을 일치시킨다. 기존 최첨단 기법들과 비교하여, 제안하는 방법은 복합 이미지 검색을 위한 두 개의 공개 데이터셋에서 뚜렷한 성능 향상을 달성하였다.