16 天前

摘要:尽管基于LLM的摘要评分模型在评估生成摘要质量方面取得了显著进展,但它们在面对通用逃避攻击(Universal Evasion Attacks)时仍表现出显著的脆弱性。本文系统地研究了针对摘要评分任务的通用逃避攻击,提出了一种名为UniSumAttack的新型攻击方法。该方法通过生成对人类可读且语义保持不变的对抗性扰动,能够有效规避多种主流LLM评分模型的判断。我们通过在多个公开数据集(包括CNN/DailyMail、XSum、SummEval)上进行实验,验证了所提方法在攻击成功率、扰动隐蔽性及跨模型泛化能力方面的优越性能。此外,我们还探讨了攻击背后的潜在机制,揭示了LLM评分模型在处理语义相似但结构差异较大的文本时存在的认知偏差。本研究为理解LLM在摘要评分任务中的安全性和鲁棒性提供了新的视角,并为未来构建更具鲁棒性的评估系统提供了重要参考。

Wenchuan Mu, Kwan Hui Lim
摘要:尽管基于LLM的摘要评分模型在评估生成摘要质量方面取得了显著进展,但它们在面对通用逃避攻击(Universal Evasion Attacks)时仍表现出显著的脆弱性。本文系统地研究了针对摘要评分任务的通用逃避攻击,提出了一种名为UniSumAttack的新型攻击方法。该方法通过生成对人类可读且语义保持不变的对抗性扰动,能够有效规避多种主流LLM评分模型的判断。我们通过在多个公开数据集(包括CNN/DailyMail、XSum、SummEval)上进行实验,验证了所提方法在攻击成功率、扰动隐蔽性及跨模型泛化能力方面的优越性能。此外,我们还探讨了攻击背后的潜在机制,揭示了LLM评分模型在处理语义相似但结构差异较大的文本时存在的认知偏差。本研究为理解LLM在摘要评分任务中的安全性和鲁棒性提供了新的视角,并为未来构建更具鲁棒性的评估系统提供了重要参考。
摘要

自动摘要评分在引导摘要生成模型的开发中具有重要意义。然而,评分过程本身十分复杂,涉及流畅性、语法正确性,以及与原文之间的文本蕴含关系等多个方面。尽管如此,摘要评分尚未被视作一个机器学习任务来系统研究其准确性和鲁棒性。在本研究中,我们将自动评分置于回归型机器学习任务的框架下,并通过对抗性规避攻击(evasion attacks)来探究其鲁棒性。攻击系统能够从每个输入中生成非摘要文本(non-summary strings),这些文本在主流评估指标——ROUGE、METEOR 和 BERTScore 上,仍能获得与优秀摘要生成模型相当的评分。此外,攻击系统在 ROUGE-1 和 ROUGE-L 指标上“表现优于”当前最先进的摘要方法,且在 METEOR 指标上取得第二高的得分。更值得注意的是,研究中观察到一种 BERTScore 后门现象:仅通过一个简单的触发词,即可获得高于任何自动摘要方法的评分。本研究所提出的规避攻击表明,当前摘要评分系统在系统层面存在显著的脆弱性。我们希望本文所揭示的这些攻击方法能够推动更稳健、可靠的摘要评分体系的发展。

摘要:尽管基于LLM的摘要评分模型在评估生成摘要质量方面取得了显著进展,但它们在面对通用逃避攻击(Universal Evasion Attacks)时仍表现出显著的脆弱性。本文系统地研究了针对摘要评分任务的通用逃避攻击,提出了一种名为UniSumAttack的新型攻击方法。该方法通过生成对人类可读且语义保持不变的对抗性扰动,能够有效规避多种主流LLM评分模型的判断。我们通过在多个公开数据集(包括CNN/DailyMail、XSum、SummEval)上进行实验,验证了所提方法在攻击成功率、扰动隐蔽性及跨模型泛化能力方面的优越性能。此外,我们还探讨了攻击背后的潜在机制,揭示了LLM评分模型在处理语义相似但结构差异较大的文本时存在的认知偏差。本研究为理解LLM在摘要评分任务中的安全性和鲁棒性提供了新的视角,并为未来构建更具鲁棒性的评估系统提供了重要参考。 | 最新论文 | HyperAI超神经