武大博士生提出黑盒攻击方法FlippedRAG,揭示大模型RAG系统安全漏洞
武漢大学情報管理学院の博士課程学生・陳卓氏が第一著者を務めた論文が、2025年10月に台湾・台北で開催される国際セキュリティ分野の頂点会議であるACM CCS 2025に採択された。論文題目は「FlippedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models」(大規模言語モデルの検索増強生成システムに対する黒ボックス型観点操作攻撃)。 本研究は、外部知識ベースを活用して生成品質を向上させるRAG(Retrieval-Augmented Generation)技術の安全性に焦点を当てたもの。既存の研究は白ボックス設定や事実性に関する質問に限られ、実際の運用に近い黒ボックス環境下での意見形成タスクに対する脅威は十分に解明されていなかった。この課題を踏まえ、陳卓氏らは、転移学習に基づく新しい対抗攻撃手法「FlippedRAG」を提案。攻撃者はモデルの内部構造を知らなくても、少量の悪意ある検索データを汚染し、代理の検索器を逆に構築することで、大規模言語モデルが偏った意見を生成させることが可能となる。 実験結果では、FlippedRAGは既存の攻撃手法に比べて平均16.7%高い攻撃成功率を達成し、生成内容の意見極性を最大50%まで変化させることに成功。さらに、ユーザー実験では、攻撃によって被験者の認識が平均20%の方向に変化する影響が確認された。また、既存の防御手法を回避できる点も特徴であり、白ボックスに依存する攻撃や検出されやすいヒューリスティックな手法の限界を克服した。 本論文の共同指導教員は、武漢大学の陸偉教授、程齊凱准教授、張帆特任副研究員、博士後期課程の劉家偉氏(通訊著者)および米国ウースター工科大学の劉曉鐘准教授。情報管理学院の博士生・劉昊坦、修士課程学生・陳淼坤、学部生・龔宇揚も研究に貢献した。 ACM CCSは、情報セキュリティ分野の世界最高レベルの学会会議の一つであり、CCF推薦A類。過去10年の採択率は約18%と極めて低く、採択は国際的な研究水準の証である。
