Command Palette

Search for a command to run...

10 天前

Hail to the Thief:探索去中心化GRPO中的攻击与防御

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Hail to the Thief:探索去中心化GRPO中的攻击与防御

摘要

群体相对策略优化(Group Relative Policy Optimization, GRPO)在大型语言模型(Large Language Models, LLMs)的后训练阶段展现出显著的应用价值。在GRPO框架中,模型对输入提示(prompt)生成回复,并通过强化学习机制学习偏好完成结果。由于通信开销小,GRPO天然适用于去中心化训练:多个节点可并行回答提示,结果以字符串形式交换,实现高效协同。在本研究中,我们首次提出了针对去中心化GRPO的对抗性攻击。我们证明,恶意参与方可在上下文外(out-of-context)和上下文内(in-context)两种攻击场景下,通过向良性模型中注入任意恶意令牌,成功污染系统。基于数学与编程任务的实证实验表明,该类对抗攻击可迅速污染良性节点,导致其本地LLM后训练过程被严重破坏,在仅50次迭代内即可实现高达100%的攻击成功率。针对上述威胁,我们提出了两种防御机制,其选择取决于所有用户是否训练同一模型。若用户共享相同模型,采用统一的校验与聚合策略;若用户训练不同模型,则引入基于模型一致性的异常检测机制。实验结果表明,所提防御方法可实现最高达100%的阻断率,有效使攻击无法成功,显著提升去中心化GRPO系统的安全性与鲁棒性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供