Command Palette
Search for a command to run...
هيل تو ذا ثيف: استكشاف الهجمات والدفاعات في GRPO اللامركزية
هيل تو ذا ثيف: استكشاف الهجمات والدفاعات في GRPO اللامركزية
Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen
الملخص
أظهرت طريقة التحسين النسبي للمبادئ (GRPO) إمكانات كبيرة في مرحلة ما بعد التدريب للنماذج اللغوية الكبيرة (LLMs). في GRPO، تُجيب النموذج على المحفزات (prompts)، ثم يتم تعلم الإكمالات المفضلة من خلال التعلم المعزز. وبفضل الحجم الصغير للاتصال، فإن GRPO مناسب بشكل طبيعي للتدريب اللامركزي، حيث يمكن للعديد من العقد أن تجيب بشكل متزامن على المحفزات، ثم يتم تبادل هذه الإجابات على شكل سلاسل نصية. في هذه الدراسة، نقدم أول هجوم عدائي على نظام GRPO اللامركزي. نُظهر أن الأطراف الضارة يمكنها تسميم هذه الأنظمة عن طريق إدخال رموز ضارة بشكل عشوائي في النماذج السليمة، سواء في هجمات خارج السياق أو ضمن السياق. باستخدام أمثلة تجريبية في مهام الرياضيات والبرمجة، نبين أن الهجمات العدائية يمكنها بسهولة تسميم العقد السليمة، مما يؤدي إلى تلوث عملية ما بعد التدريب المحلية للنموذج اللغوي الكبير، وتحقيق معدلات نجاح للهجوم تصل إلى 100% في غضون 50 تكرارًا فقط. ونُقترح طريقتين للدفاع ضد هذه الهجمات، اعتمادًا على ما إذا كان جميع المستخدمين يدرّسون نفس النموذج أم نماذج مختلفة. ونُظهر أن هذه التدابير الدفاعية يمكنها تحقيق معدلات وقف تصل إلى 100%، مما يجعل الهجوم مستحيلًا.