HyperAI

L’optimisation politique relative par groupe (Group Relative Policy Optimization, GRPO) s’est révélée particulièrement efficace dans le post-entraînement des grands modèles linguistiques (Large Language Models, LLM). Dans le cadre de GRPO, les modèles répondent à des prompts, et grâce à un apprentissage par renforcement, ils apprennent à privilégier les complétions jugées préférables. En raison du faible volume de communication, GRPO est intrinsèquement adapté à un entraînement décentralisé, puisque les prompts peuvent être simultanément traités par plusieurs nœuds et échangés sous forme de chaînes de caractères. Dans ce travail, nous présentons la première attaque par adversaire dans un cadre de GRPO décentralisé. Nous démontrons que des entités malveillantes peuvent polluer ces systèmes en injectant des jetons malveillants arbitraires dans des modèles sains, tant dans des attaques hors contexte que dans des attaques dans le contexte. À l’aide d’exemples empiriques tirés de tâches mathématiques et de programmation, nous montrons que les attaques adverses peuvent facilement polluer les nœuds sains, altérant ainsi leur post-entraînement local des LLM, avec des taux de succès d’attaque atteignant jusqu’à 100 % en seulement 50 itérations. Nous proposons deux mécanismes de défense, selon que tous les utilisateurs entraînent le même modèle ou des modèles différents. Nous démontrons que ces défenses peuvent atteindre des taux d’arrêt allant jusqu’à 100 %, rendant l’attaque impossible.

Hail to the Thief : Exploration des attaques et des défenses dans le GRPO décentralisé

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Hail to the Thief : Exploration des attaques et des défenses dans le GRPO décentralisé

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Résumé

Construire l'IA avec l'IA

Hyper Newsletters