HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

الهروب من السجن في كومة القش

Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

الهروب من السجن في كومة القش

الملخص

أدى التقدم الأخير في نماذج اللغة ذات السياق الطويل (LMs) إلى تمكين إدخالات تصل إلى ملايين الرموز، مما يوسع قدرتها على أداء مهام معقدة مثل الوكالات المستخدمة في الحوسبة. ومع ذلك، تظل الآثار السلبية المتعلقة بالسلامة في هذه السياقات الممتدة غير واضحة. ولسد هذه الفجوة، نقدم نموذج "نينجا" (NINJA)، وهو اختصار لـ "هجوم تجاوز الحدود داخل كومة قش" (Needle-in-haystack jailbreak attack)، وهو أسلوب يُجبر النماذج المُتميزة على تجاوز قيود الأمان من خلال إضافة محتوى مُولَّد من قبل النموذج ويعتبر غير ضار إلى أهداف مستخدم ضارة. وتمثّل الملاحظة الحاسمة في منهجنا أن موقع الأهداف الضارة يلعب دورًا مهمًا في مسألة السلامة. وتشير النتائج التجريبية على معيار السلامة القياسي "هارم بENCH" (HarmBench) إلى أن نينجا يُسهم بشكل ملحوظ في رفع معدلات نجاح الهجمات على أحدث النماذج المفتوحة والخاصة، بما في ذلك LLaMA وQwen وMistral وGemini. على عكس الطرق السابقة لتجاوز الحدود، يُعد نهجنا منخفض الموارد، قابلاً للنقل بين النماذج، وأقل قابلية للكشف. علاوةً على ذلك، نُظهر أن نينجا يُعدّ مُحسَّنًا من حيث حساب الموارد: فضلاً عن ميزانية محددة من الحوسبة، يمكن أن يؤدي تطويل السياق إلى تفوقه على زيادة عدد المحاولات في نماذج الهجوم من نوع "أفضل N" (best-of-N). تُظهر هذه النتائج أن السياقات الطويلة المُحَوَّلة بعناية، حتى لو كانت غير ضارة، يمكن أن تُدخل ثغرات جوهرية في النماذج الحديثة للغة عند ترتيب الأهداف بذكاء.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الهروب من السجن في كومة القش | الأوراق البحثية | HyperAI