Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

الملخص
أظهرت طريقة التحسين النسبي للمبادئ (GRPO) إمكانات كبيرة في مرحلة ما بعد التدريب للنماذج اللغوية الكبيرة (LLMs). في GRPO، تُجيب النموذج على المحفزات (prompts)، ثم يتم تعلم الإكمالات المفضلة من خلال التعلم المعزز. وبفضل الحجم الصغير للاتصال، فإن GRPO مناسب بشكل طبيعي للتدريب اللامركزي، حيث يمكن للعديد من العقد أن تجيب بشكل متزامن على المحفزات، ثم يتم تبادل هذه الإجابات على شكل سلاسل نصية. في هذه الدراسة، نقدم أول هجوم عدائي على نظام GRPO اللامركزي. نُظهر أن الأطراف الضارة يمكنها تسميم هذه الأنظمة عن طريق إدخال رموز ضارة بشكل عشوائي في النماذج السليمة، سواء في هجمات خارج السياق أو ضمن السياق. باستخدام أمثلة تجريبية في مهام الرياضيات والبرمجة، نبين أن الهجمات العدائية يمكنها بسهولة تسميم العقد السليمة، مما يؤدي إلى تلوث عملية ما بعد التدريب المحلية للنموذج اللغوي الكبير، وتحقيق معدلات نجاح للهجوم تصل إلى 100% في غضون 50 تكرارًا فقط. ونُقترح طريقتين للدفاع ضد هذه الهجمات، اعتمادًا على ما إذا كان جميع المستخدمين يدرّسون نفس النموذج أم نماذج مختلفة. ونُظهر أن هذه التدابير الدفاعية يمكنها تحقيق معدلات وقف تصل إلى 100%، مما يجعل الهجوم مستحيلًا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.