2달 전

다중 측정 불확실성 정규화를 통한 텍스트 피드백 기반 구성 이미지 검색

Chen, Yiyang ; Zheng, Zhedong ; Ji, Wei ; Qu, Leigang ; Chua, Tat-Seng
다중 측정 불확실성 정규화를 통한 텍스트 피드백 기반 구성 이미지 검색
초록

우리는 텍스트 피드백을 활용한 복합 이미지 검색을 연구합니다. 사용자는 점진적으로 대상에 대한 관심사를 찾기 위해 거시적에서 미시적 피드백으로 이동합니다. 그러나 기존 방법들은 주로 후자, 즉 미시적 검색에만 초점을 맞추고 있으며, 학습 과정에서 양성 및 음성 쌍을 활용하고 있습니다. 이러한 쌍 기반 패러다임은 특정 점 쌍 간의 일대일 거리만 고려하기 때문에, 일대다 거시적 검색 과정과 일치하지 않아 재현율이 저하됩니다. 이러한 격차를 메우기 위해 우리는 다중 해상도 불확실성을 고려하여 거시적 및 미시적 검색을 동시에 모델링하는 통합 학습 접근법을 제안합니다. 제안된 방법의 핵심 아이디어는 특징 공간에서 동일하게 분포된 변동성을 도입함으로써 미시적 및 거시적 검색을 각각 작은 변동성과 큰 변동성 데이터 포인트 매칭으로 통합하는 것입니다. 구체적으로, 우리의 방법은 두 개의 모듈로 구성됩니다: (1) 불확실성 모델링은 특징 공간에서 동일하게 분포된 변동성을 도입하여 다중 해상도 쿼리를 시뮬레이션합니다. (2) 불확실성 모델링을 바탕으로, 우리는 변동성 범위에 따라 매칭 목적을 조정하기 위해 불확실성 규제를 추가로 도입합니다. 기존 방법들과 비교할 때, 제안된 전략은 초기 단계에서 잠재적인 후보들을 멀리 밀어내는 것을 명시적으로 방지하여 재현율을 향상시키는 효과가 있습니다. FashionIQ, Fashion200k, 그리고 Shoes라는 세 가지 공개 데이터셋에서 제안된 방법은 강력한 베이스라인 대비 각각 +4.03%, +3.38%, +2.40%의 Recall@50 정확도 향상을 달성하였습니다.

다중 측정 불확실성 정규화를 통한 텍스트 피드백 기반 구성 이미지 검색 | 최신 연구 논문 | HyperAI초신경