HyperAI

近日，武汉大学信息管理学院博士研究生陈卓作为第一作者的论文《针对大语言模型检索增强生成系统的黑盒观点操纵攻击》（FlippedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models）被第32届国际计算机与通信安全会议（ACM CCS 2025）录用。该会议将于2025年10月13日至17日在台北举行，是信息安全领域国际公认的四大顶级学术会议之一，也是中国计算机学会（CCF）推荐的A类会议，近十年录用率约为18%，代表了该领域最前沿的研究水平。论文提出了一种名为FlippedRAG的新型对抗攻击方法，聚焦于检索增强生成（RAG）系统在黑盒环境下、针对具有争议性观点类任务的安全隐患。RAG技术通过引入外部知识库提升大模型生成内容的准确性与可靠性，但其安全性尚未得到充分研究。现有研究多局限于白盒设定或仅关注事实性问答，难以应对现实场景中的复杂威胁。 FlippedRAG利用迁移学习，构建代理检索器，仅需污染极少量检索文档并设计对抗性触发文本，即可在不掌握模型内部结构的情况下，成功操纵大模型生成带有明显偏见的观点。实验表明，该方法相比基线攻击平均提升攻击成功率16.7%，可使模型输出观点极性发生高达50%的偏移。更值得注意的是，用户实验显示，该攻击可导致用户真实认知观点发生20%的显著转变。此外，FlippedRAG具备较强的隐蔽性，能有效规避现有防御检测机制，突破了以往攻击方法依赖白盒信息或使用易被识别的启发式策略的局限。该研究由武汉大学信息管理学院教授陆伟、副教授程齐凯、特聘副研究员张帆、博士后刘家伟（通讯作者）与美国伍斯特理工学院副教授刘晓钟共同指导，信息管理学院博士生刘昊坦、硕士生陈淼坤、本科生龚宇扬参与了相关工作。研究成果不仅揭示了RAG系统的关键安全漏洞，也为构建更安全、可信的AI生成系统提供了重要参考。

相关链接

相关链接

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

Command Palette

武大学子研究成果入选ACM CCS 2025，彰显珞珈创新力量

相关链接

Command Palette

武大学子研究成果入选ACM CCS 2025，彰显珞珈创新力量

相关链接

Command Palette

武大学子研究成果入选ACM CCS 2025，彰显珞珈创新力量

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力