2달 전

스케일링된 양성 및 음성을 사용한 대조 학습을 통한 합성 이미지 검색 향상

Zhangchi Feng; Richong Zhang; Zhijie Nie
스케일링된 양성 및 음성을 사용한 대조 학습을 통한 합성 이미지 검색 향상
초록

Composed Image Retrieval(CIR) 작업은 참조 이미지와 수정된 텍스트로 구성된 복합 쿼리를 사용하여 대상 이미지를 검색하는 것을 목표로 합니다. 고급 방법들은 일반적으로 충분한 양의 긍정적 및 부정적 예제를 활용하여 최적화 목표로 대조 학습(contrastive learning)을 사용합니다. 그러나 CIR에 대한 트리플릿(triplet) 생성은 높은 수작업 주석 비용을 초래하여 긍정적 예제가 제한적이게 됩니다. 또한, 기존 방법들은 배치 내 부정 샘플링(in-batch negative sampling)을 주로 사용하여 모델에 사용할 수 있는 부정 예제의 수를 줄입니다. 이러한 문제를 해결하기 위해, 우리는 다중 모달(multi-modal) 대형 언어 모델을 활용하여 CIR에 대한 트리플릿을 구축하는 데이터 생성 방법을 제안합니다. 더 많은 부정 예제를 미세 조정(fine-tuning) 과정에서 도입하기 위해, 우리는 두 단계의 미세 조정 프레임워크를 설계하였습니다. 이 프레임워크의 두 번째 단계에서는 많은 정적인 부정 표현(static representations of negatives)을 도입하여 표현 공간을 신속하게 최적화합니다. 위의 두 개의 개선 사항은 효과적으로 결합되어 플러그-앤플레이(plug-and-play) 방식으로 설계되어 기존 CIR 모델에 적용할 수 있으며, 원래 아키텍처를 변경하지 않아도 됩니다. 광범위한 실험과 절단 분석(ablation analysis) 결과, 우리의 방법이 긍정적 및 부정적 예제를 효과적으로 확장하고 FashionIQ 및 CIRR 데이터셋에서 최고 성능을 달성함을 입증하였습니다. 또한, 우리의 방법은 저자원 환경(low-resources scenario)에서 제로샷(zero-shot) 복합 이미지 검색에서도 우수한 성능을 보여주며, 새로운 CIR 솔루션을 제공합니다. 우리의 코드와 데이터는 https://github.com/BUAADreamer/SPN4CIR 에서 공개되었습니다.

스케일링된 양성 및 음성을 사용한 대조 학습을 통한 합성 이미지 검색 향상 | 최신 연구 논문 | HyperAI초신경