新方法提升AI语言模型评估效率和公平性,降低成本
随着人工智能语言模型的新版本不断推出,许多开发者声称新模型的性能有所提升。然而,证明这些新模型确实比前一版更好仍然是该领域面临的一个既昂贵又棘手的挑战。通常情况下,为了验证新模型的性能并提高对其改进的信任度,开发人员会用一套基准问题对其进行测试。这些问题库可能包含数十万甚至更多的问题,而所有答案都需要人工审核,这不仅增加了时间和成本,也导致了评估过程中的种种局限性。 斯坦福大学的研究团队在最新发表于国际机器学习大会(ICML 2025)的一篇论文中提出了一种更具成本效益的评估方法。该研究的主要观察点在于,评估过程中必须考虑到问题的难度。“有些模型可能因为运气好而表现得更好或更差,我们试图预测这种情况并作出调整,以确保公平比较。”研究领军人物Sanmi Koyejo,斯坦福工程学院计算机科学助理教授如是说。此外,同为研究合作作者的斯坦福人工智能实验室(SAIL)博士候选人Sang Truong指出,“这个评估过程往往和训练本身的费用相当,甚至更高。我们建立了一个基础设施,能够根据难度自适应选择部分问题,这使评估更为公正。” 为实现这一目标,Koyejo、Truong及其团队借鉴了教育领域的经典理论——项目反应理论(Item Response Theory),用于评分测试对象时考虑问题的难易程度。Koyejo将其比喻为标准化考试(如SAT等)以及其他形式的自适应测试工作原理,即每个正确或错误的回答都会决定下一个问题是更简单还是更复杂的问题。 通过利用语言模型分析问题并给出难度评分,研究人员能够显著降低评估成本,最高可达80%以上。这项难度评分使得两个不同模型之间的相对性能比较成为可能。同时,为了构建一个大规模、多样化且校准良好的问题库,研究小组采用AI的生成能力来创建可以精确到任意难度等级的问题生成器。这不仅有助于问题库的自动更新,还能从数据库中剔除被污染的问题,确保评估的准确性。 研究作者认为,有了设计更合理的问题,其他研究者可以用一小部分问题做出更好的性能评估。这种方法更加高效、公平且经济。新方法不仅适用于各个知识领域,包括医学、数学和法律等,而且Koyejo已经在22个数据集和172个语言模型上验证了其灵活性。例如,他们的系统能够记录GPT 3.5安全性的微妙变化:在一段时期内得到改善,然后在2023年测试的几个变体中再次下降。语言模型的安全性是指模型对数据操纵、对抗性攻击、滥用及其他风险的抵御能力。 在过去,可靠性评估语言模型是一场既昂贵又难以维持的斗争。但现在,新的项目反应理论方法为严格、可扩展且适应性强的评估提供了途径。对于开发者而言,这意味着更精准的诊断和性能评估;而对于最终用户,则意味着更加公平透明的模型评价标准。正如Koyejo所说,“对于我们所有人来说,这意味着更快的技术进步和对迅速发展的AI工具更大的信任。” 项目反应理论(Item Response Theory,IRT)是一种心理测量学理论,主要用于评估试题难度和应试者的知识水平。该理论已在教育测验领域应用多年。在AI领域应用IRT,可以显著提高模型评估的精度和效率,对推动AI技术的健康发展具有重要意义。斯坦福人工智能实验室(Stanford Artificial Intelligence Lab,SAIL)是全球顶尖的人工智能研究团队之一,致力于解决人工智能技术面临的前沿问题。
