2달 전

약한 감독 하에 대조적 사전 학습을 통한 텍스트 임베딩

Liang Wang; Nan Yang; Xiaolong Huang; Binxing Jiao; Linjun Yang; Daxin Jiang; Rangan Majumder; Furu Wei
약한 감독 하에 대조적 사전 학습을 통한 텍스트 임베딩
초록

본 논문은 E5, 최신 기술을 적용한 텍스트 임베딩 모델군을 소개합니다. 이 모델은 우리 자체 큐레이션한 대규모 텍스트 쌍 데이터셋(CCPairs)에서 얻은 약한 감독 신호를 사용하여 대조적으로 훈련되었습니다. E5는 검색, 클러스터링, 분류 등 단일 벡터 표현이 필요한 모든 작업에 대해 일반적인 목적의 임베딩 모델로 쉽게 활용될 수 있으며, 제로샷 및 미세 조정(fine-tuned) 환경 모두에서 강력한 성능을 보입니다. 우리는 BEIR 및 MTEB 벤치마크에서 56개의 데이터셋을 대상으로 광범위한 평가를 수행했습니다. 제로샷 환경에서는 E5가 어떤 라벨링된 데이터도 사용하지 않고도 강력한 BM25 베이스라인을 능가하는 첫 번째 모델입니다. 미세 조정 시에는 E5가 매개변수 개수가 40배 많은 기존 임베딩 모델들을 능가하며 MTEB 벤치마크에서 최고의 결과를 얻었습니다.

약한 감독 하에 대조적 사전 학습을 통한 텍스트 임베딩 | 최신 연구 논문 | HyperAI초신경