كيف يتحدى الباحثون حواجز الذكاء الاصطناعي لجعله أكثر أمانًا: تفكيك "النظام" من الداخل لتحسين الحماية
أظهر باحثون من جامعة فلوريدا، بقيادة البروفيسور سوميت كومار جها من قسم علوم الحاسوب والهندسة المعلوماتية، طريقة جديدة لاختبار أمان النماذج اللغوية الكبيرة (LLMs) من الداخل، عبر تقنية تُعرف بـ"التحفيز عبر الفراغ الصفري" (Head-Masked Nullspace Steering أو HMNS). تهدف هذه الطريقة إلى كشف الثغرات في الحواجز الأمنية التي تُستخدم لمنع النماذج من إنتاج محتوى ضار أو غير مُصرّح به، مثل الإجابات المضللة أو التحريض على أفعال غير أخلاقية. في حين أن معظم الطرق التقليدية تعتمد على تلاعب بسيط في النصوص المدخلة (الـ prompts) لاختبار مدى تجاوز الحماية، فإن الفريق ابتكر منهجية تُحلل النموذج من الداخل، من خلال تحديد "المكونات النشطة" داخل الشبكة العصبية التي تُسهم في اتخاذ القرارات. ثم يُوقف عمل هذه المكونات بتصفير مدخلاتها، بينما يُوجَّه النموذج نحو مسارات بديلة، مما يسمح بتحديد ما إذا كانت هناك طرق داخلية يمكن استغلالها لتجاوز الحماية. التجربة تُجرى باستخدام قدرات الحوسبة الفائقة من خلال حاسوب هايبرغيتور (HiPerGator) في جامعة فلوريدا، ما يسمح بتحليل نماذج ضخمة مثل تلك التي تقدمها شركات مثل ميتا ومايكروسوفت. النتائج أظهرت أن HMNS تتفوق على الطرق الحالية في كسر الحواجز الأمنية، ليس فقط من حيث النجاح، بل أيضًا من حيث كفاءة الاستخدام، حيث تحقق النتائج بجهد حسابي أقل بكثير. الباحثون قدموا نتائجهم في مؤتمر ICLR 2026، وشددوا على أن هدفهم ليس تمكين الاستخدام غير الأخلاقي، بل تعزيز أمان النماذج من خلال فهم أوجه الضعف الداخلية. كما طرحوا معيارًا جديدًا لتقييم الأداء يُسمى "التقارير المعتمدة على قدرة الحوسبة" (compute-aware reporting)، مما يضمن مقارنة عادلة بين الأدوات المتطورة. النتائج تُظهر وجود فجوة حقيقية في الحماية الحالية، خاصة مع انتشار النماذج في مجالات حساسة مثل الرعاية الصحية والخدمات المالية. وفقًا لجها، لا يمكن الاعتماد على اختبارات خارجية بسيطة، بل يجب "تفكيك النظام وفحص داخليته" لضمان سلامته. هذه المنهجية تمثل خطوة مهمة نحو بناء أنظمة ذكاء اصطناعي أكثر أمانًا وموثوقية، خاصة مع التوسع المتسارع في استخدامها كبنية تحتية رقمية.
