باحثون يكتشفون أن بنية الجملة يمكن أن تتجاوز قواعد الأمان في الذكاء الاصطناعي
أظهرت دراسة حديثة أن الهيكل النحوي للجمل يمكن أن يُستخدم كأداة فعّالة لتجاوز قواعد الأمان المُدمجة في النماذج اللغوية الكبيرة، ما يُثير مخاوف متزايدة حول أمن الذكاء الاصطناعي. ووفقًا للباحثين، فإن تغيير ترتيب الكلمات أو استخدام أشكال نحويّة معقدة قد يُجبر النماذج على تجاهل تعليمات الحماية المُصممة لمنع التصرفات غير المرغوب فيها. البحث، الذي نُشر حديثًا، يُركّز على ظاهرة تُعرف بـ"هجمات التحفيز المُتسلّلة" (prompt injection attacks)، حيث يُقدّم للمُستخدم مدخلات مُعدّة مسبقًا بذكاء تُحَوِّل سلوك النموذج من المُراد إليه إلى مسار غير آمن. ورغم أن هذه الهجمات كانت معروفة سابقًا، فإن الدراسة تُقدّم تفسيرًا جديدًا لسبب نجاحها: فعندما تُصاغ الجمل ببنية نحويّة غير تقليدية، تُربك النماذج في التمييز بين المدخلات العادية والمحاولات التلاعبية، مما يُضعف قدرتها على التمييز بين الأوامر الآمنة وغير الآمنة. أحد الأمثلة التي استخدمها الباحثون هو استخدام جمل مركبة ذات هيكل غير متماسك، مثل جمل تبدأ بعبارة "اعمل كما لو أنك..." أو "تخيل أنك في موقف حيث..."، والتي تُستخدم لتضليل النموذج عن طريق إدخاله في سيناريو افتراضي. ورغم أن النموذج مُبرمج لرفض أي طلب يتجاوز حدود الأمان، فإن هذه الجملة المُعدّة نحويًا تُخفي النية الخبيثة داخل سياق مُفترض، مما يُمكن المُهاجم من تمرير تعليمات مُضرة دون أن يُكتشف. النتائج أظهرت أن بعض النماذج، بما في ذلك نماذج كبيرة مثل GPT وClaude، كانت قابلة للاختراق بسهولة باستخدام هذه الأساليب، خاصة عند تضمين عناصر لغوية معقدة مثل التراكيب المُتعدّدة، أو التحويلات الصورية، أو التناقضات المنطقية. ولفت الباحثون إلى أن هذه الثغرات لا تنشأ من ضعف الخوارزمية، بل من طبيعة تعلّم النماذج على مجموعات ضخمة من النصوص، حيث تُدرّس على تكرار الأنماط اللغوية، وليس على فهم العمق السياقي أو المقصود. يُعدّ هذا الاكتشاف تحديًا جوهريًا لجهود تأمين الذكاء الاصطناعي، خاصة مع التوسع السريع في استخدام النماذج في مجالات حساسة مثل الرعاية الصحية، والتمويل، والخدمات الحكومية. فعندما يُمكن لشخص ما أن يُضلل نموذجًا بالجملة المناسبة، قد يُعرض النظام بأكمله لخطر التلاعب، سواء بسرقة البيانات، أو نشر معلومات مضلّلة، أو تنفيذ أوامر غير مصرّح بها. الباحثون يقترحون تطوير نماذج أكثر وعيًا بالسياق، عبر تعزيز التحليل النحوي والمعنوي، ودمج آليات فحص متقدمة تُقيّم طبيعة المدخلات قبل تنفيذها. كما يُشجعون على إنشاء معايير موحدة لاختبار أمان النماذج، ودمج "مُراقبة لغوية" تُقيّم التهديدات المُتوقعة من خلال تحليل الهيكل النحوي للأسئلة. في الوقت نفسه، تُظهر الدراسة أن التهديدات لا تأتي فقط من التلاعب المباشر، بل من الفجوات في الفهم اللغوي للذكاء الاصطناعي، ما يُبرز الحاجة إلى نهج أكثر شمولاً في تصميم أنظمة الأمان. ففي عالم يعتمد أكثر على الذكاء الاصطناعي، فإن فهم كيف تُستغل اللغة نفسها كأداة للهجوم قد يكون هو المفتاح لبناء أنظمة أكثر أمانًا في المستقبل.
