منذ 3 أشهر

الملخص

أدى التقدم الأخير في نماذج اللغة ذات السياق الطويل (LMs) إلى تمكين إدخالات تصل إلى ملايين الرموز، مما يوسع قدرتها على أداء مهام معقدة مثل الوكالات المستخدمة في الحوسبة. ومع ذلك، تظل الآثار السلبية المتعلقة بالسلامة في هذه السياقات الممتدة غير واضحة. ولسد هذه الفجوة، نقدم نموذج "نينجا" (NINJA)، وهو اختصار لـ "هجوم تجاوز الحدود داخل كومة قش" (Needle-in-haystack jailbreak attack)، وهو أسلوب يُجبر النماذج المُتميزة على تجاوز قيود الأمان من خلال إضافة محتوى مُولَّد من قبل النموذج ويعتبر غير ضار إلى أهداف مستخدم ضارة. وتمثّل الملاحظة الحاسمة في منهجنا أن موقع الأهداف الضارة يلعب دورًا مهمًا في مسألة السلامة. وتشير النتائج التجريبية على معيار السلامة القياسي "هارم بENCH" (HarmBench) إلى أن نينجا يُسهم بشكل ملحوظ في رفع معدلات نجاح الهجمات على أحدث النماذج المفتوحة والخاصة، بما في ذلك LLaMA وQwen وMistral وGemini. على عكس الطرق السابقة لتجاوز الحدود، يُعد نهجنا منخفض الموارد، قابلاً للنقل بين النماذج، وأقل قابلية للكشف. علاوةً على ذلك، نُظهر أن نينجا يُعدّ مُحسَّنًا من حيث حساب الموارد: فضلاً عن ميزانية محددة من الحوسبة، يمكن أن يؤدي تطويل السياق إلى تفوقه على زيادة عدد المحاولات في نماذج الهجوم من نوع "أفضل N" (best-of-N). تُظهر هذه النتائج أن السياقات الطويلة المُحَوَّلة بعناية، حتى لو كانت غير ضارة، يمكن أن تُدخل ثغرات جوهرية في النماذج الحديثة للغة عند ترتيب الأهداف بذكاء.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار