Command Palette
Search for a command to run...
Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

초록
그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)는 대규모 언어 모델(Large Language Models, LLMs)의 후처리 훈련에서 매우 효과적인 활용을 보여왔다. GRPO에서는 모델이 프롬프트에 응답한 후, 강화 학습을 통해 선호되는 완성문을 학습한다. 통신량이 작기 때문에 GRPO는 분산 훈련에 본질적으로 적합한 구조를 지니고 있으며, 프롬프트는 여러 노드에서 동시에 응답될 수 있고, 결과는 문자열 형태로 교환되기 때문이다. 본 연구에서는 분산 GRPO 환경에서의 최초의 적대적 공격을 제시한다. 우리는 악의적인 당사자들이 비정상적인 악성 토큰을 정상 모델에 주입함으로써, 맥락 외(Out-of-Context) 및 맥락 내(In-Context) 공격 모두에서 시스템을 오염시킬 수 있음을 입증한다. 수학 및 코딩 과제에 대한 실험 사례를 통해, 적대적 공격이 정상 노드를 쉽게 오염시켜 로컬 LLM의 후처리 훈련을 훼손할 수 있음을 보이며, 단 50회 반복 이내에 공격 성공률이 최대 100%에 이를 수 있음을 확인하였다. 이러한 공격에 대응하기 위해, 모든 사용자가 동일한 모델을 훈련하는지 여부에 따라 두 가지 방어 전략을 제안한다. 제안된 방어 방식은 최대 100%의 공격 정지율을 달성함으로써 공격을 완전히 불가능하게 만들 수 있음을 보여준다.