HyperAI

كسر الحماية

يمكن تعريف كسر الحماية على أنه طريقة لكسر الضمانات الأخلاقية لنماذج الذكاء الاصطناعي مثل ChatGPT.ويستخدم بعض المطالبات النصية المحددة لتجاوز إرشادات مراجعة المحتوى بسهولة، مما يسمح لبرامج الذكاء الاصطناعي بالتحرر من أي قيود. على سبيل المثال، يمكن لنماذج الذكاء الاصطناعي مثل ChatGPT الإجابة على أسئلة لا يُسمح بها عادةً، وتُسمى هذه المطالبات المحددة أيضًا "كسر الحماية".

تهديدات كسر الحماية لـ LLM

  • البيانات الثابتة - أول قيود برنامج LLM هو أنه يتم تدريبه على البيانات الثابتة. على سبيل المثال، تم تدريب ChatGPT باستخدام البيانات اعتبارًا من سبتمبر 2021 وبالتالي ليس لديه حق الوصول إلى أي معلومات أحدث. يمكن تدريب نموذج LLM باستخدام مجموعات بيانات جديدة، ولكن هذه ليست عملية تلقائية وتتطلب تحديثات منتظمة.
  • الكشف عن المعلومات الشخصية - هناك تهديد آخر يواجه طلاب الماجستير في القانون وهو أنهم قد يستخدمون التلميحات لتعلم نماذج الذكاء الاصطناعي وتحسينها. حتى الآن، تم تدريب LLM باستخدام كمية معينة من البيانات ثم استخدامها للإجابة على استفسارات المستخدمين. لا يتم استخدام بيانات الاستعلام هذه حاليًا لمجموعات بيانات التدريب، ولكن من المثير للقلق أن الاستعلامات/التلميحات تكون مرئية لمقدمي LLM. نظرًا لأن بيانات الاستعلام هذه مخزنة، فمن الممكن دائمًا تدريب النموذج باستخدام بيانات المستخدم. يجب فحص مشكلات الخصوصية هذه بعناية قبل استخدام LLM.
  • إنشاء محتوى غير مناسب – يمكن لنماذج LLM إنشاء حقائق غير صحيحة ومحتوى سام (باستخدام عمليات كسر الحماية). هناك أيضًا خطر "هجمات الكلمات الإرشادية"، والتي يمكن استخدامها لخداع نماذج الذكاء الاصطناعي لتحديد نقاط الضعف في التعليمات البرمجية مفتوحة المصدر أو لإنشاء مواقع ويب للتصيد الاحتيالي.
  • إنشاء البرامج الضارة والهجمات الإلكترونية - هناك مشكلة أخرى تتمثل في إنشاء البرامج الضارة بمساعدة النماذج المستندة إلى LLM مثل ChatGPT. يمكن للأشخاص ذوي المهارات التقنية الأقل استخدام LLM لإنشاء البرامج الضارة. يمكن للمجرمين أيضًا استخدام شهادات الماجستير في القانون للحصول على المشورة الفنية المتعلقة بالهجمات الإلكترونية. وبالمثل، يمكن استخدام نصائح كسر الحماية لتجاوز القيود وإنشاء البرامج الضارة.

مراجع

【1】https://www.techopedia.com/what-is-jailbreaking-in-ai-models-like-chatgpt