11일 전

대규모 언어 모델을 통한 문장 임베딩의 스케일링

Ting Jiang, Shaohan Huang, Zhongzhi Luan, Deqing Wang, Fuzhen Zhuang
대규모 언어 모델을 통한 문장 임베딩의 스케일링
초록

최근 대규모 언어 모델(Large Language Models, LLMs)에 대한 관심이 크게 증가하고 있다. 문맥 내 학습(In-context learning)을 통해 LLMs는 다양한 자연어 처리 작업에서 놀라운 성능을 달성하고 있다. 그러나 LLMs를 문장 임베딩(sentences embeddings)에 적용하는 분야는 여전히 지속적인 연구 주제로 남아 있다. 본 연구에서는 문장 임베딩 성능을 향상시키기 위한 문맥 내 학습 기반의 새로운 방법을 제안한다. 제안한 접근법은 자동회귀 모델(auto-regressive models)에 기반한 이전의 프롬프트 기반 표현 방법을 적응시키고, LLM이 문맥 내 학습을 수행할 수 있도록 하는 예시 집합(demonstration set)을 구성하며, 모델 크기를 다양한 규모로 확장하는 것을 포함한다. 광범위한 실험을 통해 문맥 내 학습을 통해 LLM이 미세조정(fine-tuning) 없이도 고품질의 문장 임베딩을 생성할 수 있음을 확인하였다. 이는 현재의 대조적 학습(contrastive learning) 방법과 비교할 수 있는 성능을 달성하게 한다. 모델 크기 확장을 통해, 수십억 파라미터를 넘는 규모로 확장할 경우 의미적 텍스트 유사도(semantic textual similarity, STS) 작업에서 성능 저하가 발생함을 발견하였다. 그러나 가장 큰 모델은 다른 대안들보다 우수한 성능을 보이며, 전이 학습(transfer tasks)에서 새로운 최고 성능(SOTA, state-of-the-art)을 기록하였다. 또한 현재의 대조적 학습 방법을 사용해 LLMs를 미세조정한 결과, 본 연구의 프롬프트 기반 방법을 적용한 2.7B 파라미터의 OPT 모델이 4.8B 파라미터의 ST5 모델을 능가하며, STS 작업에서 새로운 최고 성능을 달성하였다. 본 연구의 코드는 https://github.com/kongds/scaling_sentemb 에 공개되어 있다.

대규모 언어 모델을 통한 문장 임베딩의 스케일링 | 최신 연구 논문 | HyperAI초신경