ثغرات أمنية في وكلاء الذكاء الاصطناعي
كشفت دراسة جديدة من جوجل ديب مايند عن ثغرات أمنية خطيرة تصنف ضمن ستة فئات لم تكن موجودة قبل عامين، خاصة في وكلاء الذكاء الاصطناعي الذين يستخدمون أدوات تصفح الويب. يركز البحث على ظاهرة تسميتها "فخوكوكلاء الذكاء الاصطناعي"، حيث استهدف الباحثون حلقة عمل الوكيل لتحديد نقاط الضعف المختلفة. تُعد الويب السطح هجومًا ديناميكيًا جديدًا تمامًا، حيث يمكن للمحتوى الخبيث أن يحقن أوامر في الوكيل دون أن يكتشفها. أظهرت التجارب أن وكلاء الحاسوب يضغطون على النوافذ المنبثقة العدائية بنسبة تصل إلى 92.7٪ من أفعالهم، معتبرين إياها عناصر تفاعلية عادية. في فئة التلاعب الدلالي، لا يحتاج المهاجم إلى حقن أوامر مباشرة، بل يستخدم ضغطًا إحصائيًا على المدخلات، مثل تشبع الصفحة بكلمات قياسية أو غرض تعليمي، لتوجيه النموذج لتبني تحيزات معينة أو تصنيف الطلبات الخبيثة كآمنة. تشمل الثغرات الأخرى تلويث الذاكرة المعرفية، حيث يتم حقن معلومات مزيفة في قواعد البيانات المسترجعة، مما يجعل الوكيل يعاملها كحقائق مؤكدة. كما يمكن للمهاجمين زرع بيانات ساذجة في الذاكرة الداخلية للوكيل، لتتحول إلى هجوم خبيث عند استدعائها في سياق مستقبلي محدد. الأخطر من ذلك هو التحكم السلوكي، حيث يستغل المهاجمون حقنًا غير مباشر عبر بريد إلكتروني أو ملف أو دعوة، فيقوم الوكيل بتنفيذ أوامر خبيثة مثل تسريب البيانات أو تجاهل تعليمات المستخدم دون علمه. نجحت تجارب في تسريب ملفات محلية عبر رسائل بريد إلكتروني واحدة، كما أظهرت دراسات أخرى أن وكلاء مثل م365 كوبايلت يمكن خداعهم لتفريغ سياقهم الخاص إلى قنوات غير آمنة. تتطور التهديدات لتشمل "فخوك الوكلاء الفرعيين"، حيث يقوم الوكيل الرئيسي ببدء وكلاء مساعدة مثل المخطط أو الناقد، ويمكن للمهاجم زرع تعليمات خبيثة في الملفات التي يقرأها الوكيل الأم، مما يؤدي إلى توليد وكيل فرعي يخضع لتوجيه المهاجم مع احتفاظه بصلاحيات الوكيل الأصلي. كما تطرح فئة المخاطر النظامية مشكلة هجمات متكررة على آلاف الوكلاء المبنية على نفس النموذج الأساسي، حيث يمكن لمدخل واحد أن يسبب سلوكًا خاطئًا متزامنًا في جميعها. بالإضافة إلى ذلك، تستغل الهجمات البشريّة في الحلقة "إرهاق الموافقة"، حيث يثق المستخدم بملخصات الوكيل دون تدقيق، مما يفتح الباب لموافقة عمياء على أكواد برمجية خبيثة. تتميز هذه الدراسة بأنها تفصل بوضوح بين جزء حلقة الوكيل الذي يستهدفه الفخ وما يحاول المهاجم تحقيقه، وهو ما يساعد في تصميم دفاعات أكثر فعالية. فمثلاً، لا تحمي مرشحات المدخلات من تلويث الذاكرة، ولا ينفع نموذج نقدي للتقييم في مواجهة ثغرات تتجزأ عبر ملفات متعددة. تؤكد الدراسة أن الحماية يجب أن تعكس بنية حلقة الوكيل بأكملها. ورغم أن بعض الفخوك لا تزال نظرية إلى حد كبير، إلا أن هذا التصنيف يقدم للمطورين والمؤسسات مفردات مشتركة لفهم ما يدافعون ضده، مما يجعله وثيقة مرجعية أساسية في مجال أمن الوكلاء الذكية.
