HyperAIHyperAI

Command Palette

Search for a command to run...

vor 10 Tagen

Hail to the Thief: Untersuchung von Angriffen und Abwehrmaßnahmen bei dezentralisiertem GRPO

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Hail to the Thief: Untersuchung von Angriffen und Abwehrmaßnahmen bei dezentralisiertem GRPO

Abstract

Group Relative Policy Optimization (GRPO) hat sich als äußerst nützlich bei der Nachtrainierung von großen Sprachmodellen (Large Language Models, LLMs) erwiesen. Bei GRPO werden Eingabeprompts vom Modell beantwortet, und mittels Verstärkungslernverfahren werden bevorzugte Fortsetzungen erlernt. Aufgrund des geringen Kommunikationsaufwands ist GRPO inhärent für dezentrale Trainingsszenarien geeignet, da die Prompts von mehreren Knoten gleichzeitig beantwortet und die Antworten als Zeichenketten ausgetauscht werden können. In dieser Arbeit präsentieren wir den ersten adversarialen Angriff auf dezentralisiertes GRPO. Wir zeigen, dass böswillige Parteien solche Systeme durch die Injektion beliebiger schädlicher Tokens in harmlose Modelle sowohl in Out-of-Context- als auch in In-Context-Angriffen beeinträchtigen können. Anhand empirischer Beispiele aus mathematischen und programmiersprachlichen Aufgaben zeigen wir, dass adversariale Angriffe die harmlosen Knoten leicht verunreinigen und deren lokale Nachtrainierung des LLMs verfälschen können, wobei Angriffserfolgsraten von bis zu 100 % bereits innerhalb von nur 50 Iterationen erreicht werden. Wir schlagen zwei Verteidigungsstrategien vor, abhängig davon, ob alle Benutzer dasselbe Modell trainieren oder unterschiedliche Modelle. Wir zeigen, dass diese Verteidigungen Stop-Raten von bis zu 100 % erzielen können, wodurch der Angriff unmöglich wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hail to the Thief: Untersuchung von Angriffen und Abwehrmaßnahmen bei dezentralisiertem GRPO | Forschungsarbeiten | HyperAI