HyperAI超神经

重新审视语言模型中的不确定性量化评估: 与响应长度偏差结果的虚假交互效应

Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
发布日期: 4/23/2025
重新审视语言模型中的不确定性量化评估:
与响应长度偏差结果的虚假交互效应
摘要

语言模型(LMs)中的不确定性量化(UQ)对于提高其安全性和可靠性至关重要。评估通常使用性能指标如AUROC来衡量UQ方法(例如负序列概率)与任务正确性函数(例如ROUGE-L)之间的相关性。本文展示了常用的正确性函数如何通过夸大某些UQ方法的性能而使UQ评估产生偏差。我们对7种正确性函数进行了评估,这些函数涵盖了从基于词汇的和基于嵌入的度量到将大型语言模型作为评判者的方法,并在4个数据集、4个模型和6种UQ方法上进行了测试。我们的分析揭示了这些正确性函数错误中的长度偏差如何通过与UQ方法中的长度偏差相互作用而扭曲UQ评估。我们确定将大型语言模型作为评判者的方法是受长度偏差影响最小的选择之一,因此可能是减轻这些偏差的一种潜在解决方案。