Wissenschaftler der Wuhan-Universität präsentieren sicherheitskritische Angriffsmethode auf KI-Systeme
武汉大学信息管理学院博士研究生陈卓作为第一作者的论文《FlippedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models》近日被第32届国际计算机与通信安全会议(ACM CCS 2025)录用。该研究聚焦大语言模型中检索增强生成(RAG)系统的安全性问题,针对当前研究多局限于白盒环境或事实性问答任务的局限,首次在黑盒设定下揭示了RAG系统在面对争议性观点生成任务时的严重安全漏洞。论文提出一种名为FlippedRAG的新型对抗攻击方法,基于迁移学习构建代理检索器,仅需污染极少量外部知识库文档,并设计特定对抗性触发文本,即可在不掌握模型内部结构的前提下,成功操纵大模型生成带有明显偏见的观点。实验结果显示,该方法相比现有基线攻击平均提升攻击成功率16.7%,可使模型输出观点极性发生高达50%的偏移。更值得注意的是,用户实验表明,此类攻击可导致真实用户认知观点发生20%的显著转变,凸显其潜在社会影响。此外,FlippedRAG具备良好的隐蔽性,能有效规避现有防御机制,突破了以往攻击方法依赖白盒信息或使用易被检测的启发式策略的限制。 该研究由武汉大学信息管理学院陆伟教授、程齐凯副教授、张帆特聘副研究员、博士后刘家伟(通讯作者)与美国伍斯特理工学院刘晓钟副教授共同指导,博士生刘昊坦、硕士生陈淼坤、本科生龚宇扬参与核心工作。ACM CCS 2025将于2025年10月13日至17日在台北举行,是信息安全领域公认的四大顶级会议之一,与中国计算机学会(CCF)A类推荐会议等同,近十年平均录用率约18%,代表国际前沿研究水平。此次论文被录用,标志着武大学子在人工智能安全与可信生成领域取得重要突破,展现了学校在交叉学科研究与高水平人才培养方面的强劲实力。 业内专家评价,该工作不仅揭示了RAG系统在现实应用中面临的关键安全风险,也为构建更鲁棒的生成系统提供了重要启示。随着大模型在政策、舆情、医疗等敏感场景的广泛应用,此类黑盒攻击的潜在危害不容忽视。FlippedRAG的提出,推动了从“防御漏洞”向“主动验证风险”的研究范式转变,具有显著的学术价值与现实意义。武汉大学信息管理学院近年来持续加强人工智能安全、可信计算等方向的布局,已形成一支具备国际竞争力的研究团队,多项成果在CCF A类会议发表,彰显了其在数字时代信息治理与技术伦理研究中的领先地位。
