대규모 언어 모델을 통한 문장 임베딩의 스케일링

최근 대규모 언어 모델(Large Language Models, LLMs)에 대한 관심이 크게 증가하고 있다. 문맥 내 학습(In-context learning)을 통해 LLMs는 다양한 자연어 처리 작업에서 놀라운 성능을 달성하고 있다. 그러나 LLMs를 문장 임베딩(sentences embeddings)에 적용하는 분야는 여전히 지속적인 연구 주제로 남아 있다. 본 연구에서는 문장 임베딩 성능을 향상시키기 위한 문맥 내 학습 기반의 새로운 방법을 제안한다. 제안한 접근법은 자동회귀 모델(auto-regressive models)에 기반한 이전의 프롬프트 기반 표현 방법을 적응시키고, LLM이 문맥 내 학습을 수행할 수 있도록 하는 예시 집합(demonstration set)을 구성하며, 모델 크기를 다양한 규모로 확장하는 것을 포함한다. 광범위한 실험을 통해 문맥 내 학습을 통해 LLM이 미세조정(fine-tuning) 없이도 고품질의 문장 임베딩을 생성할 수 있음을 확인하였다. 이는 현재의 대조적 학습(contrastive learning) 방법과 비교할 수 있는 성능을 달성하게 한다. 모델 크기 확장을 통해, 수십억 파라미터를 넘는 규모로 확장할 경우 의미적 텍스트 유사도(semantic textual similarity, STS) 작업에서 성능 저하가 발생함을 발견하였다. 그러나 가장 큰 모델은 다른 대안들보다 우수한 성능을 보이며, 전이 학습(transfer tasks)에서 새로운 최고 성능(SOTA, state-of-the-art)을 기록하였다. 또한 현재의 대조적 학습 방법을 사용해 LLMs를 미세조정한 결과, 본 연구의 프롬프트 기반 방법을 적용한 2.7B 파라미터의 OPT 모델이 4.8B 파라미터의 ST5 모델을 능가하며, STS 작업에서 새로운 최고 성능을 달성하였다. 본 연구의 코드는 https://github.com/kongds/scaling_sentemb 에 공개되어 있다.