Command Palette

Search for a command to run...

10日前

Hail to the Thief: 分散型GRPOにおける攻撃と防御の探求

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Hail to the Thief: 分散型GRPOにおける攻撃と防御の探求

要約

グループ相対方策最適化(Group Relative Policy Optimization: GRPO)は、大規模言語モデル(Large Language Models: LLMs)の後学習において高い実用性を示している。GRPOでは、モデルがプロンプトに応答し、強化学習を通じて好ましい完了文(completions)を学習する。通信量が小さいという特性から、GRPOは分散型学習に inherently 適している。なぜなら、複数のノードが同時にプロンプトに応答でき、その結果を文字列形式で交換可能だからである。本研究では、分散型GRPOにおける初めての敵対的攻撃を提示する。我々は、悪意ある参加者が、文脈外(out-of-context)および文脈内(in-context)の攻撃において、正当なモデルに任意の悪意あるトークンを注入することで、システム全体を汚染できることを実証した。数学およびコード生成という実証例を用いて、敵対的攻撃が容易に正当なノードを汚染し、局所的なLLMの後学習を歪めることを示した。その結果、わずか50イテレーションで攻撃成功確率が最大100%に達することが確認された。この攻撃に対して、すべてのユーザーが同一のモデルを学習するか、異なるモデルを学習するかに応じて、二種類の防御手法を提案する。これらの防御策は、最大で100%の停止率(stop rate)を達成でき、攻撃を不可能にすることが実証された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Hail to the Thief: 分散型GRPOにおける攻撃と防御の探求 | 論文 | HyperAI超神経