12일 전

대조적 사전 훈련을 통한 텍스트 및 코드 임베딩

Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, Lilian Weng
대조적 사전 훈련을 통한 텍스트 및 코드 임베딩
초록

텍스트 임베딩은 의미 검색 및 텍스트 유사도 계산과 같은 다양한 응용 분야에서 유용한 특징으로 활용된다. 기존 연구들은 사용 사례에 따라 데이터셋 선택, 학습 목표, 모델 아키텍처가 다른 맞춤형 모델을 학습하는 방식을 주로 사용해왔다. 본 연구에서는 대규모 비감독 데이터에 대한 대조적 사전 학습을 통해 텍스트와 코드에 대한 고품질의 벡터 표현을 얻을 수 있음을 보여준다. 선형 탐색(Linear-probe) 분류에서 최신 기준을 달성한 동일한 비감독 텍스트 임베딩은 놀라운 의미 검색 능력을 보이며, 때로는 미세조정된 모델과 경쟁력 있는 성능을 나타낸다. 7개의 작업을 평균한 선형 탐색 분류 정확도에서, 본 연구에서 제안하는 최적의 비감독 모델은 이전 최고의 비감독 및 감독 텍스트 임베딩 모델보다 각각 4%, 1.8%의 상대적 성능 향상을 달성하였다. 동일한 텍스트 임베딩을 대규모 의미 검색 평가에 적용했을 때, MSMARCO, Natural Questions, TriviaQA 벤치마크에서 각각 이전 최고의 비감독 방법보다 23.4%, 14.7%, 10.6%의 상대적 성능 향상을 기록하였다. 텍스트 임베딩과 유사하게, (텍스트, 코드) 쌍을 기반으로 코드 임베딩 모델을 학습함으로써 코드 검색에서 이전 최고 성능 대비 20.8%의 상대적 개선을 달성하였다.

대조적 사전 훈련을 통한 텍스트 및 코드 임베딩 | 최신 연구 논문 | HyperAI초신경