Hail to the Thief: Untersuchung von Angriffen und Abwehrmaßnahmen bei dezentralisiertem GRPO
Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Abstract
Group Relative Policy Optimization (GRPO) hat sich als äußerst nützlich bei der Nachtrainierung von großen Sprachmodellen (Large Language Models, LLMs) erwiesen. Bei GRPO werden Eingabeprompts vom Modell beantwortet, und mittels Verstärkungslernverfahren werden bevorzugte Fortsetzungen erlernt. Aufgrund des geringen Kommunikationsaufwands ist GRPO inhärent für dezentrale Trainingsszenarien geeignet, da die Prompts von mehreren Knoten gleichzeitig beantwortet und die Antworten als Zeichenketten ausgetauscht werden können. In dieser Arbeit präsentieren wir den ersten adversarialen Angriff auf dezentralisiertes GRPO. Wir zeigen, dass böswillige Parteien solche Systeme durch die Injektion beliebiger schädlicher Tokens in harmlose Modelle sowohl in Out-of-Context- als auch in In-Context-Angriffen beeinträchtigen können. Anhand empirischer Beispiele aus mathematischen und programmiersprachlichen Aufgaben zeigen wir, dass adversariale Angriffe die harmlosen Knoten leicht verunreinigen und deren lokale Nachtrainierung des LLMs verfälschen können, wobei Angriffserfolgsraten von bis zu 100 % bereits innerhalb von nur 50 Iterationen erreicht werden. Wir schlagen zwei Verteidigungsstrategien vor, abhängig davon, ob alle Benutzer dasselbe Modell trainieren oder unterschiedliche Modelle. Wir zeigen, dass diese Verteidigungen Stop-Raten von bis zu 100 % erzielen können, wodurch der Angriff unmöglich wird.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.