2달 전

후보 집합 재순위 결정을 이용한 쌍방향 다중 모달 인코더를 통한 합성 이미지 검색

Liu, Zheyuan ; Sun, Weixuan ; Teney, Damien ; Gould, Stephen
후보 집합 재순위 결정을 이용한 쌍방향 다중 모달 인코더를 통한 합성 이미지 검색
초록

구성된 이미지 검색은 주어진 다중 모달 사용자 쿼리, 즉 참조 이미지와 텍스트 쌍과 가장 잘 일치하는 이미지를 찾는 것을 목표로 합니다. 기존 방법들은 일반적으로 전체 코퍼스에 대한 이미지 임베딩을 사전 계산하고, 테스트 시에 쿼리 텍스트에 의해 수정된 참조 이미지 임베딩과 이를 비교합니다. 이러한 파이프라인은 테스트 시에 매우 효율적이며, 빠른 벡터 거리를 사용하여 후보들을 평가할 수 있지만, 짧은 텍스트 설명만으로 참조 이미지 임베딩을 수정하는 것은 어렵습니다. 특히 가능한 후보들로부터 독립적으로 수행되는 경우 더욱 그렇습니다. 대안적인 접근 방식은 쿼리와 모든 가능한 후보 간의 상호작용을 허용하는 것입니다. 즉, 참조-텍스트-후보 트리플렛을 사용하여 전체 세트에서 최적의 후보를 선택합니다. 이 접근 방식은 더 차별화되지만, 대규모 데이터셋에서는 사전 계산된 후보 임베딩을 사용할 수 없기 때문에 계산 비용이 금지적입니다.우리는 두 단계 모델을 사용하여 양쪽 접근 방식의 장점을 결합하는 방법을 제안합니다. 첫 번째 단계에서는 전통적인 벡터 거리 메트릭을 채택하여 후보들 중에서 빠르게 필터링합니다. 반면에 두 번째 단계에서는 듀얼 인코더 아키텍처를 활용하여 참조-텍스트-후보 입력 트리플렛에 효과적으로 주목하며 후보들을 재순위 매깁니다. 두 단계 모두 다양한 하류 작업에서 유익함이 입증된 비전-언어 사전 학습 네트워크를 활용합니다. 우리의 방법은 표준 벤치마크에서 일관되게 최신 접근 방식보다 우수한 성능을 보입니다. 우리의 구현은 https://github.com/Cuberick-Orion/Candidate-Reranking-CIR 에서 확인할 수 있습니다.

후보 집합 재순위 결정을 이용한 쌍방향 다중 모달 인코더를 통한 합성 이미지 검색 | 최신 연구 논문 | HyperAI초신경