2달 전

구성된 이미지 검색을 위한 텍스트 인코더의 작업 차이를 줄이는 효율적인 사후 처리 프레임워크

Jaeseok Byun; Seokhyeon Jeong; Wonjae Kim; Sanghyuk Chun; Taesup Moon
구성된 이미지 검색을 위한 텍스트 인코더의 작업 차이를 줄이는 효율적인 사후 처리 프레임워크
초록

조합 이미지 검색(Composed Image Retrieval, CIR)은 참조 이미지와 조건부 텍스트를 기반으로 대상 이미지를 검색하는 것을 목표로 하며, 제어 가능한 이미지 검색을 가능하게 합니다. 주류의 제로샷(Zero-Shot, ZS) CIR 방법들은 비싼 CIR 트리플렛 학습을 우회하여 이미지 임베딩을 텍스트 토큰 임베딩 공간으로 프로젝션하여 검색용 조합 쿼리를 형성합니다. 그러나 우리는 이러한 프로젝션 기반 CIR에 내재된 한계점을 강조합니다: 인코더의 원래 사전 학습 작업(텍스트 $\leftrightarrow$ 이미지)과 대상 CIR 작업(이미지 + 텍스트 $\leftrightarrow$ 이미지) 사이의 텍스트 인코더 작업 불일치가 CIR 성능에 부정적인 영향을 미칠 수 있다는 점입니다. 이러한 불일치를 줄이기 위한 단순한 해결책은 감독 방식으로 CIR 트리플렛으로 이미지와 텍스트 인코더를 학습시키는 것입니다. 하지만, 우리는 프로젝션 기반 CIR 방법들을 보완하는 효율적인 텍스트 전용 후처리 프레임워크인 '텍스트 인코더 작업 불일치 감소(Reducing Task Discrepancy of Text Encoders, RTD)'를 소개합니다. 우리는 CIR에서 텍스트 인코더의 능력을 강화하기 위해 설계된 새로운 타겟 앵커링 텍스트 대비학습(target-anchored text contrastive learning)을 개발했습니다. 또한 두 가지 주요 개선사항을 제안합니다: (1) 어려운 부정 예제 기반 정교한 배치 샘플링 전략과 (2) 정교한 연결 방안(concatenation scheme)으로 학습-추론 불일치를 더욱 완화할 수 있습니다. RTD를 최신의 프로젝션 기반 방법들과 통합하면 4개의 A100 GPU에서 23분간 추가 학습만으로도 자원 집약적인 최신 합성 CIR 트리플렛 기반 접근법과 비교 가능한 성능, 심지어 그 이상의 성능을 달성할 수 있습니다(학습 속도는 최대 $100\times$ 빠릅니다). 우리의 코드는 논문이 수락되면 공개될 예정입니다.

구성된 이미지 검색을 위한 텍스트 인코더의 작업 차이를 줄이는 효율적인 사후 처리 프레임워크 | 최신 연구 논문 | HyperAI초신경