5 个月前

摘要

随着大规模语言模型（LLMs）在传统基准测试中展现出强劲性能，亟需构建更具挑战性的评估框架，以深入探测语义理解的多个层面。我们提出了SAGE（语义对齐与泛化评估，Semantic Alignment & Generalization Evaluation），这是一个严谨的基准测试体系，旨在从五个维度全面评估嵌入模型（embedding models）与相似性度量方法：人类偏好对齐、变换鲁棒性、信息敏感性、聚类性能以及检索鲁棒性。与现有基准测试侧重孤立能力不同，SAGE通过对抗性条件、噪声变换以及细粒度的人类判断任务，在30余个数据集上对语义理解能力进行综合评估。我们对9种嵌入模型及经典相似性度量方法的全面评测揭示了显著的性能差距——没有任何一种方法在所有维度上均表现卓越。例如，尽管当前最先进的嵌入模型（如OpenAI的text-embedding-3-large）在对齐人类偏好方面占据主导地位（得分为0.682，优于最佳经典度量方法的0.591），但在信息敏感性任务中却被经典度量方法大幅超越：Jaccard相似性得分高达0.905，而最优嵌入模型得分仅为0.794。SAGE进一步揭示了关键的权衡关系：OpenAI的text-embedding-3-small在聚类性能上表现最佳（得分为0.483），但其鲁棒性极差，鲁棒性得分最低，仅为0.011。SAGE揭示了当前语义理解能力中的诸多关键局限，为实际应用场景中模型的鲁棒性提供了更为真实的评估依据。

源 PDF