HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 10 jours

Hail to the Thief : Exploration des attaques et des défenses dans le GRPO décentralisé

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

Hail to the Thief : Exploration des attaques et des défenses dans le GRPO décentralisé

Résumé

L’optimisation politique relative par groupe (Group Relative Policy Optimization, GRPO) s’est révélée particulièrement efficace dans le post-entraînement des grands modèles linguistiques (Large Language Models, LLM). Dans le cadre de GRPO, les modèles répondent à des prompts, et grâce à un apprentissage par renforcement, ils apprennent à privilégier les complétions jugées préférables. En raison du faible volume de communication, GRPO est intrinsèquement adapté à un entraînement décentralisé, puisque les prompts peuvent être simultanément traités par plusieurs nœuds et échangés sous forme de chaînes de caractères. Dans ce travail, nous présentons la première attaque par adversaire dans un cadre de GRPO décentralisé. Nous démontrons que des entités malveillantes peuvent polluer ces systèmes en injectant des jetons malveillants arbitraires dans des modèles sains, tant dans des attaques hors contexte que dans des attaques dans le contexte. À l’aide d’exemples empiriques tirés de tâches mathématiques et de programmation, nous montrons que les attaques adverses peuvent facilement polluer les nœuds sains, altérant ainsi leur post-entraînement local des LLM, avec des taux de succès d’attaque atteignant jusqu’à 100 % en seulement 50 itérations. Nous proposons deux mécanismes de défense, selon que tous les utilisateurs entraînent le même modèle ou des modèles différents. Nous démontrons que ces défenses peuvent atteindre des taux d’arrêt allant jusqu’à 100 %, rendant l’attaque impossible.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Hail to the Thief : Exploration des attaques et des défenses dans le GRPO décentralisé | Articles de recherche | HyperAI