
摘要
高质量的文本嵌入在提升语义文本相似度(Semantic Textual Similarity, STS)任务性能方面起着关键作用,而STS任务是大型语言模型(Large Language Model, LLM)应用中的核心组成部分。然而,现有文本嵌入模型普遍面临梯度消失问题,其主要成因在于优化目标中依赖余弦函数,而该函数存在饱和区域,导致梯度衰减。为解决这一问题,本文提出一种新型角度优化文本嵌入模型——AnglE。AnglE的核心思想是在复数空间中引入角度优化机制,该方法有效缓解了余弦函数饱和区域带来的负面影响,显著改善了梯度传播,从而提升优化效率。为全面评估STS性能,我们在现有的短文本STS数据集以及从GitHub Issues中新收集的长文本STS数据集上进行了实验。此外,针对标注数据有限的特定领域STS场景,我们进一步探讨了AnglE在结合LLM生成标注数据时的表现。在多种任务上开展了广泛实验,涵盖短文本STS、长文本STS以及领域特定STS任务。实验结果表明,AnglE在性能上显著优于当前最先进的STS模型,尤其是那些未考虑余弦函数饱和问题的模型。这些成果充分证明了AnglE在生成高质量文本嵌入方面的优越能力,同时也验证了角度优化在STS任务中的有效性与实用性。