Command Palette
Search for a command to run...
Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

摘要
群体相对策略优化(Group Relative Policy Optimization, GRPO)在大型语言模型(Large Language Models, LLMs)的后训练阶段展现出显著的应用价值。在GRPO框架中,模型对输入提示(prompt)生成回复,并通过强化学习机制学习偏好完成结果。由于通信开销小,GRPO天然适用于去中心化训练:多个节点可并行回答提示,结果以字符串形式交换,实现高效协同。在本研究中,我们首次提出了针对去中心化GRPO的对抗性攻击。我们证明,恶意参与方可在上下文外(out-of-context)和上下文内(in-context)两种攻击场景下,通过向良性模型中注入任意恶意令牌,成功污染系统。基于数学与编程任务的实证实验表明,该类对抗攻击可迅速污染良性节点,导致其本地LLM后训练过程被严重破坏,在仅50次迭代内即可实现高达100%的攻击成功率。针对上述威胁,我们提出了两种防御机制,其选择取决于所有用户是否训练同一模型。若用户共享相同模型,采用统一的校验与聚合策略;若用户训练不同模型,则引入基于模型一致性的异常检测机制。实验结果表明,所提防御方法可实现最高达100%的阻断率,有效使攻击无法成功,显著提升去中心化GRPO系统的安全性与鲁棒性。