17일 전

목표 지도형 복합 이미지 검색

Haokun Wen, Xian Zhang, Xuemeng Song, Yinwei Wei, Liqiang Nie
목표 지도형 복합 이미지 검색
초록

복합 이미지 검색(Composed Image Retrieval, CIR)은 참조 이미지와 그에 해당하는 수정 텍스트를 포함한 다모달 쿼리에 대해 대상 이미지를 검색하는 새로운 유연한 이미지 검색 패러다임이다. 기존의 연구들은 놀라운 성과를 달성했지만, 다모달 쿼리 구성 향상에 기여할 수 있는 참조 이미지와 수정 텍스트 간의 충돌 관계 모델링을 간과하고 있으며, 주어진 쿼리와 후보 이미지 간에 다양한 수준의 매칭 정도를 반영할 수 있도록 적응형 매칭 정도 모델링을 고려하지 못하고 있다. 이러한 두 가지 한계를 해결하기 위해, 본 연구에서는 타깃 유도형 복합 이미지 검색 네트워크(Target-Guided Composed Image Retrieval, TG-CIR)를 제안한다. 특히 TG-CIR는 대조적 언어-이미지 사전 훈련 모델(Contrastive Language-Image Pre-training, CLIP)을 백본으로 사용하여 참조/타깃 이미지와 수정 텍스트에 대해 통합된 전역 및 국소적 속성 특징을 추출하며, 속성 특징 간의 독립성을 촉진하기 위해 직교성 정규화(orthogonal regularization)를 도입한다. 이후 TG-CIR는 타깃-쿼리 관계 유도형 다모달 쿼리 구성 모듈을 설계하였으며, 이는 타깃 무관 학습자(teacher) 구성 브랜치와 타깃 기반 교사(teacher) 구성 브랜치로 구성된다. 여기서 타깃-쿼리 관계가 교사 브랜치에 주입되어 학습자 브랜치의 충돌 관계 모델링을 유도한다. 마지막으로, 기존의 배치 기반 분류 손실 외에도, 배치 기반 타깃 유사도 유도형 매칭 정도 정규화를 추가로 도입하여 메트릭 학습 과정을 강화한다. 세 가지 벤치마크 데이터셋에서 실시한 광범위한 실험을 통해 제안된 방법의 우수성을 입증하였다.

목표 지도형 복합 이미지 검색 | 최신 연구 논문 | HyperAI초신경