2달 전

협력 그룹: 노이즈 주석을 통한 합의 학습을 이용한 복합 이미지 검색

Zhang, Xu ; Zheng, Zhedong ; Zhu, Linchao ; Yang, Yi
협력 그룹: 노이즈 주석을 통한 합의 학습을 이용한 복합 이미지 검색
초록

구성 이미지 검색은 사용자가 참조 이미지와 의도를 설명하는 캡션을 사용하여 검색할 수 있도록 하는 콘텐츠 기반 이미지 검색 시스템을 확장합니다. 이미지-텍스트 컴포저의 차별적인 시각-언어 특징을 추출하는 데 큰 진전이 있었음에도 불구하고, 우리는 지금까지 간과되었던 문제인 트리플 애매성을 식별하였습니다. 트리플 애매성은 참조 이미지, 관련 캡션, 그리고 대상 이미지 사이에서 발생하는 의미적 애매성을 나타냅니다. 이는 주로 주석된 텍스트의 제한된 표현으로 인해 발생하며, 여러 시각적으로 유사하지 않은 후보 이미지가 동일한 참조 쌍(즉, 참조 이미지 + 관련 캡션)에 매칭되는 많은 노이즈 트리플을 초래합니다.이 문제를 해결하기 위해, 우리는 집단이 개인보다 우수하다는 심리학적 개념에서 영감을 받아 합의 네트워크(Css-Net)를 제안합니다. Css-Net은 두 가지 핵심 구성 요소로 이루어져 있습니다: (1) 네 가지 다양한 컴포저로 구성된 합의 모듈로, 각 컴포저는 고유한 이미지-텍스트 임베딩을 생성하여 보완적인 특징 추출을 촉진하고 특정 컴포저에 대한 의존성을 줄입니다; (2) Kullback-Leibler 발산 손실 함수로, 컴포저 간 상호 작용 학습을 장려하여 합의적인 출력을 촉진합니다.평가 과정에서는 네 가지 컴포저의 결정이 가중치 방식을 통해 결합되어 전체적인 일치성을 향상시킵니다. 벤치마크 데이터셋, 특히 FashionIQ에서 Css-Net은 명확한 개선점을 보여주며, 특히 R@10에서 2.77% 증가와 R@50에서 6.67% 향상을 달성하여 기존 방법의 근본적인 한계를 해결하는 경쟁력을 입증하였습니다.

협력 그룹: 노이즈 주석을 통한 합의 학습을 이용한 복합 이미지 검색 | 최신 연구 논문 | HyperAI초신경