HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 10 أيام

هيل تو ذا ثيف: استكشاف الهجمات والدفاعات في GRPO اللامركزية

Nikolay Blagoev Oğuzhan Ersoy Lydia Yiyu Chen

هيل تو ذا ثيف: استكشاف الهجمات والدفاعات في GRPO اللامركزية

الملخص

أظهرت طريقة التحسين النسبي للمبادئ (GRPO) إمكانات كبيرة في مرحلة ما بعد التدريب للنماذج اللغوية الكبيرة (LLMs). في GRPO، تُجيب النموذج على المحفزات (prompts)، ثم يتم تعلم الإكمالات المفضلة من خلال التعلم المعزز. وبفضل الحجم الصغير للاتصال، فإن GRPO مناسب بشكل طبيعي للتدريب اللامركزي، حيث يمكن للعديد من العقد أن تجيب بشكل متزامن على المحفزات، ثم يتم تبادل هذه الإجابات على شكل سلاسل نصية. في هذه الدراسة، نقدم أول هجوم عدائي على نظام GRPO اللامركزي. نُظهر أن الأطراف الضارة يمكنها تسميم هذه الأنظمة عن طريق إدخال رموز ضارة بشكل عشوائي في النماذج السليمة، سواء في هجمات خارج السياق أو ضمن السياق. باستخدام أمثلة تجريبية في مهام الرياضيات والبرمجة، نبين أن الهجمات العدائية يمكنها بسهولة تسميم العقد السليمة، مما يؤدي إلى تلوث عملية ما بعد التدريب المحلية للنموذج اللغوي الكبير، وتحقيق معدلات نجاح للهجوم تصل إلى 100% في غضون 50 تكرارًا فقط. ونُقترح طريقتين للدفاع ضد هذه الهجمات، اعتمادًا على ما إذا كان جميع المستخدمين يدرّسون نفس النموذج أم نماذج مختلفة. ونُظهر أن هذه التدابير الدفاعية يمكنها تحقيق معدلات وقف تصل إلى 100%، مما يجعل الهجوم مستحيلًا.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
هيل تو ذا ثيف: استكشاف الهجمات والدفاعات في GRPO اللامركزية | الأوراق البحثية | HyperAI