Command Palette
Search for a command to run...
Yusuf Çelebi Mahmoud El Hussieni Özay Ezerceli

摘要
本研究提出了 PARROT(Output Truth Persuasion and Agreement Robustness Rating,即“输出真理的说服与一致性鲁棒性评级”),这是一个专注于鲁棒性的评估框架,旨在衡量大型语言模型(LLM)在受到权威和说服等社会压力时,其准确性下降的程度,即所谓的“阿谀”现象(sycophancy,又称过度顺从)。PARROT 框架具备以下功能:(i)通过双盲评估,对比同一问题的“中立版本”与“带有权威性误导的版本”,从而隔离因果效应;(ii)利用基于对数似然(log-likelihood)的校准追踪技术,量化模型在正确回答与被强加的错误回答之间的置信度偏移;(iii)采用八种状态的行为分类体系,系统地对失效模式进行分类(例如:鲁棒正确、阿谀性附和、强化错误、顽固错误、自我纠正等)。我们利用涵盖 13 个领域的 1,302 道 MMLU(大规模多任务语言理解)风格多项选择题以及特定领域的权威性提示模板,对 22 个模型进行了评估。研究结果显示出显著的异质性:先进模型(如 GPT-5、GPT-4.1、Claude Sonnet 4.5)表现出较低的“顺从率”(follow rates)(≤ 11%,其中 GPT-5 仅为 4%)和极小的准确率损失;而较旧或较小的模型则表现出严重的“认知崩塌”(epistemic collapse)(如 GPT-4 为 80%,Qwen 2.5-1.5B 为 94%)。这种风险不仅局限于回答内容的改变;能力较弱的模型还会降低对正确答案的置信度,同时提高对被强加的错误答案的置信度。在特定领域层面,国际法和全球常识类问题表现出高度的脆弱性,而初等数学则相对具有较强的韧性。因此,我们主张,为了实现模型在现实世界中的安全部署,应将“抵御过拟合压力”的能力作为一个首要目标,与准确性、无害性及隐私保护并列同等重要的地位。