Command Palette
Search for a command to run...
Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

摘要
大型语言模型(LLMs)及自然语言处理数据集的迅速扩展,使得全面的基准评估在计算上变得不可行。受国际数学奥林匹克竞赛等高风险竞赛的启发——仅通过少数精心挑选的题目即可区分顶尖选手——我们提出了SubLIME方法,该方法在保持排名一致性的同时,将评估成本降低了80%至99%。SubLIME训练了一个排名相关性预测(Rank Correlation Prediction, RCP)模型,该模型结合仅来自5至20个基准LLM的有限性能数据,以及数据集固有的度量指标——难度(Difficulty)、质量(Quality)和分布离散度(Distributional Dispersion),以预测候选子集在多大程度上能反映完整基准的排名情况。基于这些预测,SubLIME选择一个“最优”子集(仅包含完整数据集1%至20%的数据)用于新LLM的评估,在十个不同基准上的实验表明,其在保持全局排名准确性方面显著优于其他数据高效评估方法。