HyperAI

Group Relative Policy Optimization (GRPO) hat sich als äußerst nützlich bei der Nachtrainierung von großen Sprachmodellen (Large Language Models, LLMs) erwiesen. Bei GRPO werden Eingabeprompts vom Modell beantwortet, und mittels Verstärkungslernverfahren werden bevorzugte Fortsetzungen erlernt. Aufgrund des geringen Kommunikationsaufwands ist GRPO inhärent für dezentrale Trainingsszenarien geeignet, da die Prompts von mehreren Knoten gleichzeitig beantwortet und die Antworten als Zeichenketten ausgetauscht werden können. In dieser Arbeit präsentieren wir den ersten adversarialen Angriff auf dezentralisiertes GRPO. Wir zeigen, dass böswillige Parteien solche Systeme durch die Injektion beliebiger schädlicher Tokens in harmlose Modelle sowohl in Out-of-Context- als auch in In-Context-Angriffen beeinträchtigen können. Anhand empirischer Beispiele aus mathematischen und programmiersprachlichen Aufgaben zeigen wir, dass adversariale Angriffe die harmlosen Knoten leicht verunreinigen und deren lokale Nachtrainierung des LLMs verfälschen können, wobei Angriffserfolgsraten von bis zu 100 % bereits innerhalb von nur 50 Iterationen erreicht werden. Wir schlagen zwei Verteidigungsstrategien vor, abhängig davon, ob alle Benutzer dasselbe Modell trainieren oder unterschiedliche Modelle. Wir zeigen, dass diese Verteidigungen Stop-Raten von bis zu 100 % erzielen können, wodurch der Angriff unmöglich wird.

Hail to the Thief: Untersuchung von Angriffen und Abwehrmaßnahmen bei dezentralisiertem GRPO

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Hail to the Thief: Untersuchung von Angriffen und Abwehrmaßnahmen bei dezentralisiertem GRPO

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Abstract

KI mit KI entwickeln

Hyper Newsletters