HyperAI超神経
Back to Headlines

武大修士生、大言語モデルに対する新たな後門攻撃手法「EmbedX」を開発 USENIX Security 2025に採択

6日前

武漢大学の学生が大規模言語モデルのセキュリティ課題を明らかにする論文をUSENIX Security 2025で発表 武漢大学国家网络安全学院の2023年度修士課程学生、闫楠氏を中心とするチームの論文「EmbedX:基于嵌入的跨触发器大语言模型后门攻击」が第34回USENIX Security Symposium 2025に採択されました。この研究は武漢大学の李雨晴准教授、陳晶教授、何琨准教授が指導し、華中科技大学の王雄准教授と香港科技大学の李波教授との共同研究として行われました。 近年、大規模言語モデル(LLMs)は自然言語処理タスクにおいて高性能を発揮しており、質問回答、翻訳、テキスト生成など幅広く活用されています。しかし、これらのモデルには後門攻撃のリスクが存在します。攻撃者は訓練データに特定のトリガーを埋め込むことで、モデルが特定の入力を受け取った場合に悪意のあるまたは誤った応答を引き出すことが可能です。これまでの後門攻撃手法は、離散的なトリガーを使用して自動最適化が難しく、また単一のトリガーに依存するため、ユーザの多様な言語習慣や多言語環境での効果が低下していました。 この課題に対応するために、闫楠氏らは「EmbedX」という新しい後門攻撃フレームワークを提案しました。EmbedXは、離散的なトリガーではなく、最適化された連続的な埋め込みベクトルを使用して「ソフトトリガー」を作成することで、特定の攻撃シーンに合わせて動的にトリガーを微調整できます。さらに、異なる言語スタイルを持つ単語をトークンとして使用し、これらのトークンの埋め込み語義をソフトトリガーと一致させる仕組みにより、複数のトリガーが同じ後門を引き起こすことが可能になります。これにより、新たなトリガーを使用しても再学習が必要なく、迅速に攻撃を移行することが可能です。 また、攻撃の隠蔽性を高めるために、EmbedXは周波数ドメインと勾配空間の二重制約を導入しています。これにより、攻撃者が注入したサンプルが正常なサンプルと見分けがつかないように模型内部の表現を近づけています。実験は、LLaMA、BLOOM、Gemmaなどの主要オープンソース大規模言語モデルと6つの異なる言語環境で行われ、感情分析、ヘイトスピーチ検出、命令生成などのタスクで評価されました。結果は、EmbedXが既存方法に比べて攻撃成功率、時間効率、隠蔽性の面で大幅に優れていることを示しており、平均移行時間が約0.53秒で、攻撃成功率はほぼ100%となりました。さらに、モデルの精度も3.2%向上しています。 本研究は、既存の防御メカニズムが意味層面上で盲点を持つ可能性を明らかにし、将来の効率的かつ隠蔽的な大規模言語モデルの後門検出技術の理論基盤を確立しました。 USENIX Security Symposiumは1990年に始まり、30年以上の歴史があり、IEEE S&P、ACM CCS、NDSSとともに世界最大のセキュリティ学術会議の一つとして認められています。武漢大学から推薦されるCCF Aクラス会議にも指定されており、第34回の USENIX Security は8月13~15日にシアトルで開催されます。

Related Links