2 天前
大语言模型基准测试综述
Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang

摘要
近年来,随着大语言模型能力在深度与广度上的快速发展,各类相应的评估基准不断涌现。作为衡量模型性能的量化工具,评估基准不仅是衡量模型能力的核心手段,更是引导模型发展方向、推动技术革新的关键要素。本文首次系统性地回顾了大语言模型评估基准的现状与发展,将283个具有代表性的基准划分为三类:通用能力类、领域特定类与目标特定类。通用能力类基准涵盖核心语言学、知识理解与推理能力等方面;领域特定类基准聚焦于自然科学、人文与社会科学、工程技术等专业领域;目标特定类基准则关注风险评估、可靠性、智能体(agents)等特定目标。本文指出,当前基准仍存在数据污染导致评分虚高、文化与语言偏见引发评估不公平,以及对过程可信度与动态环境适应性评估缺失等问题,并为未来基准设计的创新提供了可参考的范式。