Command Palette
Search for a command to run...
الهروب من السجن في كومة القش
الهروب من السجن في كومة القش
Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan
الملخص
أدى التقدم الأخير في نماذج اللغة ذات السياق الطويل (LMs) إلى تمكين إدخالات تصل إلى ملايين الرموز، مما يوسع قدرتها على أداء مهام معقدة مثل الوكالات المستخدمة في الحوسبة. ومع ذلك، تظل الآثار السلبية المتعلقة بالسلامة في هذه السياقات الممتدة غير واضحة. ولسد هذه الفجوة، نقدم نموذج "نينجا" (NINJA)، وهو اختصار لـ "هجوم تجاوز الحدود داخل كومة قش" (Needle-in-haystack jailbreak attack)، وهو أسلوب يُجبر النماذج المُتميزة على تجاوز قيود الأمان من خلال إضافة محتوى مُولَّد من قبل النموذج ويعتبر غير ضار إلى أهداف مستخدم ضارة. وتمثّل الملاحظة الحاسمة في منهجنا أن موقع الأهداف الضارة يلعب دورًا مهمًا في مسألة السلامة. وتشير النتائج التجريبية على معيار السلامة القياسي "هارم بENCH" (HarmBench) إلى أن نينجا يُسهم بشكل ملحوظ في رفع معدلات نجاح الهجمات على أحدث النماذج المفتوحة والخاصة، بما في ذلك LLaMA وQwen وMistral وGemini. على عكس الطرق السابقة لتجاوز الحدود، يُعد نهجنا منخفض الموارد، قابلاً للنقل بين النماذج، وأقل قابلية للكشف. علاوةً على ذلك، نُظهر أن نينجا يُعدّ مُحسَّنًا من حيث حساب الموارد: فضلاً عن ميزانية محددة من الحوسبة، يمكن أن يؤدي تطويل السياق إلى تفوقه على زيادة عدد المحاولات في نماذج الهجوم من نوع "أفضل N" (best-of-N). تُظهر هذه النتائج أن السياقات الطويلة المُحَوَّلة بعناية، حتى لو كانت غير ضارة، يمكن أن تُدخل ثغرات جوهرية في النماذج الحديثة للغة عند ترتيب الأهداف بذكاء.