
고품질 텍스트 임베딩은 대규모 언어 모델(LLM) 응용에서 핵심적인 구성 요소인 의미적 텍스트 유사도(STS) 작업의 성능을 향상시키는 데 핵심적인 역할을 한다. 그러나 기존의 텍스트 임베딩 모델들이 직면하는 일반적인 문제는, 최적화 목적함수에서 코사인 함수에 의존함에 따라 발생하는 그래디언트 소실(gradient vanishing) 문제이다. 이는 코사인 함수의 포화 영역(saturation zone)으로 인해 발생한다. 본 논문은 이러한 문제를 해결하기 위해 각도 최적화를 도입한 새로운 텍스트 임베딩 모델인 AnglE를 제안한다. AnglE의 핵심 아이디어는 복소수 공간(complex space)에서 각도 최적화를 도입하는 것이다. 이 새로운 접근 방식은 코사인 함수의 포화 영역이 그래디언트 전파를 방해하고 최적화 과정을 저해하는 부정적 영향을 효과적으로 완화한다. 포괄적인 STS 평가를 위해 기존의 짧은 텍스트 STS 데이터셋과 GitHub 이슈에서 새로 수집한 긴 텍스트 STS 데이터셋을 활용한 실험을 수행하였다. 또한 레이블이 제한된 소규모 데이터를 가진 도메인 특화 STS 시나리오를 검토하고, LLM에 의해 주석이 달린 데이터와 함께 AnglE의 성능을 탐구하였다. 짧은 텍스트 STS, 긴 텍스트 STS, 그리고 도메인 특화 STS 등 다양한 작업에 대해 광범위한 실험을 수행한 결과, 코사인 포화 영역을 무시하는 기존 최첨단(SOTA) STS 모델들보다 AnglE가 더 우수한 성능을 보였다. 이러한 결과는 AnglE가 고품질 텍스트 임베딩을 생성할 수 있음을 입증하며, STS 작업에서 각도 최적화의 유용성 또한 확인하였다.