Command Palette

Search for a command to run...

2 个月前

SubLIME:基于秩相关性预测的子集选择用于数据高效的LLM评估

Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

SubLIME:基于秩相关性预测的子集选择用于数据高效的LLM评估

摘要

大型语言模型(LLMs)及自然语言处理数据集的迅速扩展,使得全面的基准评估在计算上变得不可行。受国际数学奥林匹克竞赛等高风险竞赛的启发——仅通过少数精心挑选的题目即可区分顶尖选手——我们提出了SubLIME方法,该方法在保持排名一致性的同时,将评估成本降低了80%至99%。SubLIME训练了一个排名相关性预测(Rank Correlation Prediction, RCP)模型,该模型结合仅来自5至20个基准LLM的有限性能数据,以及数据集固有的度量指标——难度(Difficulty)、质量(Quality)和分布离散度(Distributional Dispersion),以预测候选子集在多大程度上能反映完整基准的排名情况。基于这些预测,SubLIME选择一个“最优”子集(仅包含完整数据集1%至20%的数据)用于新LLM的评估,在十个不同基准上的实验表明,其在保持全局排名准确性方面显著优于其他数据高效评估方法。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SubLIME:基于秩相关性预测的子集选择用于数据高效的LLM评估 | 论文 | HyperAI超神经