فريق ChatGPT يصمم وكلاء ذكاء اصطناعي قادرين على مقاومة حقن الأوامر
مع تزايد قدرة وكلاء الذكاء الاصطناعي على تصفح الويب واسترجاع المعلومات وتنفيذ إجراءات نيابة عن المستخدمين، برزت تحديات أمنية جديدة تعتمد على حقن الأوامر في المحتوى الخارجي. تهدف هذه الهجمات إلى إجبار النماذج على تنفيذ أوامر لم يطلبها المستخدم، وقد تطورت من مجرد نصوص خبيثة بسيطة إلى هجمات متقنة تعتمد على الهندسة الاجتماعية لتشجيع المستخدمين على التلاعب بالنظام. لم تعد الاعتمادات التقليدية على تصفية المدخلات كافية، حيث أن الهجمات المعقدة تشبه إلى حد كبير التلاعب بالبشر، مما يجعل اكتشافها صعبًا بدون السياق الكامل. بدلاً من محاولة منع جميع الهجمات بدقة مطلقة، تركز الحلول الحديثة على تصميم الأنظمة بحيث تكون قادرًا على تقييد الضرر حتى في حال نجاح الهجوم. يشبه هذا المنهج التعامل مع موظفي خدمة العملاء البشريين الذين قد يتعرضون لمحاولات خداع من العملاء، حيث يتم وضع قيود صارمة على قدراتهم لتقليل المخاطر المحتملة، مثل تحديد كميات الإرجاع أو تنبيههم للرسائل المشبوهة. تعتمد استراتيجيات الدفاع المطبقة في تطبيقات مثل ChatGPT على دمج نموذج الهندسة الاجتماعية مع تقنيات هندسة الأمان التقليدية مثل تحليل المصدر والمصب. في هذا الإطار، يحتاج المهاجم إلى مصدر للتأثير ونقطة مصب تكون خطيرة في سياق خاطئ. الهدف هو ضمان عدم تنفيذ الإجراءات الخطرة أو إرسال معلومات حساسة بشكل صامت أو دون ضوابط مناسبة. غالبًا ما تفشل الهجمات التي تحاول إقناع المساعد بنقل معلومات سرية لطرف ثالث بفضل التدريب الأمني، ولكن في الحالات النادرة التي ينجح فيها، يتم تفعيل آلية تسمى "رابط آمن" للكشف عن أي محاولة لإرسال معلومات تم تعلمها خلال المحادثة إلى جهة خارجية. في هذه الحالات، إما يظهر النظام المعلومات للمستخدم لطلب التأكيد قبل الإرسال، أو يتم حظر العملية وإرشاد الوكيل لطريقة بديلة. يظل التفاعل الآمن مع البيئة الخارجية أمرًا ضروريًا للوكلاء المستقلين تمامًا، ويوصى عند دمج نماذج الذكاء الاصطناعي في أنظمة التطبيقات بمحاكاة الضوابط التي يضعها البشر. رغم أن النموذج الذكي قد يكون أكثر مقاومة للهندسة الاجتماعية من البشر، إلا أن تطبيق ضوابط الحماية لا يزال ضروريًا لضمان السلامة. تستمر الشركات في استكشاف تأثيرات الهندسة الاجتماعية على نماذج الذكاء الاصطناعي ودمج استنتاجاتها في معماريات الأمن والتدريب لتحسين دفاعات الأنظمة باستمرار.
