基准测试列表 - 摘要:尽管基于LLM的摘要评分模型在评估生成摘要质量方面取得了显著进展,但它们在面对通用逃避攻击(Universal Evasion Attacks)时仍表现出显著的脆弱性。本文系统地研究了针对摘要评分任务的通用逃避攻击,提出了一种名为UniSumAttack的新型攻击方法。该方法通过生成对人类可读且语义保持不变的对抗性扰动,能够有效规避多种主流LLM评分模型的判断。我们通过在多个公开数据集(包括CNN/DailyMail、XSum、SummEval)上进行实验,验证了所提方法在攻击成功率、扰动隐蔽性及跨模型泛化能力方面的优越性能。此外,我们还探讨了攻击背后的潜在机制,揭示了LLM评分模型在处理语义相似但结构差异较大的文本时存在的认知偏差。本研究为理解LLM在摘要评分任务中的安全性和鲁棒性提供了新的视角,并为未来构建更具鲁棒性的评估系统提供了重要参考。 | 论文 | HyperAI超神经