最新大语言模型评测平台或存可信度隐患
一项由麻省理工学院(MIT)研究人员主导的新研究指出,当前广泛用于评估大语言模型(LLM)性能的排名平台可能存在严重可靠性问题。这些平台通常通过收集用户对不同模型在特定任务中表现的对比反馈,来生成排名,帮助企业在销售报告摘要、客户咨询分类等实际场景中选择最优模型。然而,MIT团队发现,仅少数几条用户反馈就可能彻底改变排名结果,导致企业误判哪款模型真正适合自身需求。 研究团队发现,删除极少量的众包数据(例如在超过5.7万条投票中仅移除两票,占比0.0035%),就足以让原本排名第一的模型跌落,而排名靠后的模型跃居榜首。这表明当前的排名系统对异常或错误数据极为敏感。即使在使用专家标注、质量更高的平台中,移除约3%的评估数据(83条)也会导致排名反转。 研究人员分析认为,许多具有决定性影响的投票可能源于用户误操作、注意力不集中或对模型表现判断不清。这些“噪声”数据会显著扭曲整体排名,使结果缺乏稳定性与可重复性。 为应对这一问题,研究团队开发了一种高效的近似分析方法,能够快速识别出对排名影响最大的关键数据点,而无需手动测试所有可能的数据组合。用户可据此检查这些可疑投票,并重新评估排名是否可靠。 MIT电气工程与计算机科学系副教授塔玛拉·布罗德里克(Tamara Broderick)表示:“如果一个模型的顶尖排名仅由两三个反馈决定,那么它在真实部署中能否持续胜出就值得怀疑。”她强调,依赖此类排名做决策,可能给企业带来重大且代价高昂的后果。 研究团队建议,排名平台应收集更丰富的反馈信息,如用户对判断结果的信心程度,并引入人工审核机制来筛选异常数据。未来工作将聚焦于提升评估方法的稳健性,并探索更多非鲁棒性案例的识别方法。 该研究已提交至国际学习表征会议(ICLR),并获得美国海军研究办公室、国家科学基金会、MIT-IBM沃森AI实验室、亚马逊及CSAIL种子基金支持。专家评价认为,该工作揭示了当前人类偏好聚合机制的脆弱性,为更科学的数据收集与模型评估提供了重要启示。
