HyperAI

أظهر فريق NVIDIA AI Red Team، خلال تقييمه لعدة تطبيقات قائمة على نماذج اللغة الكبيرة (LLM)، ثلاث ثغرات أمنية شائعة تُعدّ من أبرز التهديدات التي تواجه هذه الأنظمة قبل دخولها البيئة الإنتاجية. تتمثل أبرز هذه الثغرات في تنفيذ التعليمات البرمجية الناتجة عن النماذج، وثغرات التحكم في الوصول في مصادر البيانات المستخدمة في نماذج الاسترجاع المدعومة بالذكاء الاصطناعي (RAG)، وعرض المحتوى النشط الناتج عن النماذج، والتي قد تؤدي إلى تسريب البيانات. أولى هذه الثغرات تكمن في استخدام وظائف مثل exec أو eval لتنفيذ التعليمات البرمجية التي تولّدها النماذج. على الرغم من أن هذه الوظائف قد تُستخدم لأغراض بسيطة مثل رسم المخططات، إلا أن تمددها لمهام معقدة مثل إنشاء استعلامات قواعد بيانات أو تنفيذ عمليات تحليلية يُعدّ خطرًا كبيرًا. إذا لم تُعزل هذه العمليات بشكل كافٍ، يمكن للمهاجمين استغلال هجمات "الإدخال المُضلل" (prompt injection) لجعل النموذج إنتاج كود خبيث، مما يؤدي إلى تنفيذ أكواد عن بعد (RCE) وتجاوز الحماية الكاملة للبيئة. الحل الأمثل هو تجنب استخدام exec وeval تمامًا، واستبدالها بآليات تحليل نية النموذج وربطها بوظائف محددة مسبقًا وآمنة. وفي حال الحاجة إلى تنفيذ كود ديناميكي، يجب إجراؤه داخل بيئة معزولة وآمنة، مثل تلك المستندة إلى WebAssembly. ثانيًا، تُظهر تقييمات الفريق تقصيرًا في التحكم في الصلاحيات داخل مصادر بيانات RAG. فغالبًا ما تُنسَب صلاحيات الوصول إلى المستخدمين دون تمييز دقيق، مما يسمح لهم بقراءة مستندات حساسة لا يُفترض أن يكونوا على علم بها. وغالبًا ما يكون السبب في ذلك أخطاء في تهيئة الصلاحيات في المصادر الأصلية (مثل Confluence أو Google Workspace)، أو استخدام توكنات قراءة مفرطة الصلاحيات عند استيراد البيانات، أو تأخر في تحديث الصلاحيات مما يؤدي إلى تأخر في تطبيق التحديثات. كما أن السماح لجميع المستخدمين بكتابة بيانات في قاعدة RAG يُعدّ تهديدًا كبيرًا، إذ يمكن للمهاجمين إدخال مستندات مُضللة تؤدي إلى هجمات غير مباشرة، مثل تضليل النتائج أو سرقة البيانات الشخصية. للتقليل من هذا الخطر، يُوصى بتمكين خيارات تقييد الوصول، مثل اختيار المستندات الخاصة فقط، أو المستندات داخل المؤسسة، أو تجنب دمج البريد الإلكتروني كمصدر مفتوح، مع تطبيق سياسات أمنية صارمة على المحتوى المُسترجع. ثالثًا، يُعدّ عرض المحتوى النشط مثل Markdown أو الروابط أو الصور في النتائج التي تُولّدها النماذج مصدرًا لتسريب البيانات. فعندما يحتوي رابط صورة أو رابط نشط على بيانات مُشفّرة في سلسلة الاستعلام، فإن تحميله يُرسل هذه البيانات إلى خادم المهاجم. يمكن استغلال هجمات الإدخال المُضلل لاستدراج المستخدم إلى النقر على رابط يحتوي على معلومات حساسة. لمواجهة هذا التهديد، يُقترح تطبيق سياسات أمنية محتوى (CSP) لمنع تحميل الصور من مصادر غير موثوقة، وعرض الروابط الكاملة للمستخدم قبل التفاعل بها، أو تعطيل الروابط النشطة تمامًا، إضافة إلى تنظيف المخرجات من أي محتوى نشط قبل عرضها. باختصار، تُعدّ هذه الثغرات الثلاث من أبرز التحديات الأمنية في تطبيقات LLM، لكنها قابلة للتحصين من خلال اعتماد ممارسات تصميم آمنة، وتحسين التحكم في الصلاحيات، وحظر المحتوى النشط.

نصائح عملية لضمان أمان نماذج اللغة الكبيرة من فريق NVIDIA للاختراق الاصطناعي

Related Links