HyperAI超神经

群体相对策略优化（Group Relative Policy Optimization, GRPO）在大型语言模型（Large Language Models, LLMs）的后训练阶段展现出显著的应用价值。在GRPO框架中，模型对输入提示（prompt）生成回复，并通过强化学习机制学习偏好完成结果。由于通信开销小，GRPO天然适用于去中心化训练：多个节点可并行回答提示，结果以字符串形式交换，实现高效协同。在本研究中，我们首次提出了针对去中心化GRPO的对抗性攻击。我们证明，恶意参与方可在上下文外（out-of-context）和上下文内（in-context）两种攻击场景下，通过向良性模型中注入任意恶意令牌，成功污染系统。基于数学与编程任务的实证实验表明，该类对抗攻击可迅速污染良性节点，导致其本地LLM后训练过程被严重破坏，在仅50次迭代内即可实现高达100%的攻击成功率。针对上述威胁，我们提出了两种防御机制，其选择取决于所有用户是否训练同一模型。若用户共享相同模型，采用统一的校验与聚合策略；若用户训练不同模型，则引入基于模型一致性的异常检测机制。实验结果表明，所提防御方法可实现最高达100%的阻断率，有效使攻击无法成功，显著提升去中心化GRPO系统的安全性与鲁棒性。

Hail to the Thief：探索去中心化GRPO中的攻击与防御

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Hail to the Thief：探索去中心化GRPO中的攻击与防御

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

摘要

用 AI 构建 AI

Hyper Newsletters