HyperAI

أظهر باحثون من معهد شانغهاي للفيزياء، وجامعة شنغهاي للعلوم والتكنولوجيا، وجامعة تسينغهوا، والأكاديمية الصينية للعلوم، وجود ثغرة أمنية خطيرة في نماذج اللغة الكبيرة (LLMs)، حيث يمكن لمحرّكات الذكاء الاصطناعي تحرير النماذج لتصحيح أخطاء أو حذف بيانات حساسة، لكن هذه العمليات قد تُستخدم كقناة جانبية لتسريب المعلومات. وفقًا لبحث نُشر على منصة arXiv، فإن التحديثات في معاملات النموذج، التي تُجرى عادةً بطريقة "حدد ثم عدّل"، تحتوي على "بصمة" مميزة تُمكّن المهاجمين من استعادة البيانات الحساسة التي تم حذفها أو تعديلها. الباحثون، بقيادة زهييو سون ومينرو لوي، أشاروا إلى أن النماذج الكبيرة تُدرّب على مجموعات ضخمة من النصوص، مما يؤدي إلى تذكّر معلومات حساسة بشكل غير مقصود. بينما تُعدّ تقنية "تحديد ثم تعديل" وسيلة فعّالة لتصحيح النماذج دون الحاجة إلى إعادة تدريبها بالكامل، فإن التغييرات في المعاملات تُظهر هيكلًا منخفض الرتبة يمكن استغلاله. وقد طوّروا هجومًا مكوّنًا من مرحلتين يُسمّى KSTER (استعادة الفضاء الرئيسي ثم تقليل الانتروبيا)، يعتمد على تحليل الطيفي لفضاء الصفوف في مصفوفة التحديث، مما يسمح باستخلاص الهوية الحقيقية للبيانات المحرّرة. في المرحلة الأولى، يتم استخراج "بصمة" البيانات المحرّرة من التغيرات في المصفوفة. وفي المرحلة الثانية، يُستخدم هجوم يعتمد على الانتروبيا لاستعادة السياق المعاني للبيانات المحرّرة. أظهرت التجارب على نماذج مثل GPT-J وLlama-3 وQwen-2.5 أن الهجوم نجح في استعادة البيانات الحساسة بدرجة عالية من الدقة، حتى بعد حذفها رسميًا. للمواجهة، قدم الباحثون استراتيجية دفاعية تُسمّى "التحايل على الفضاء" (subspace camouflage)، والتي تُضفي تزييفًا بسيطًا على التحديثات عبر إدخال بيانات وهمية ذات معنى مشابه، مما يُعطل قدرة المهاجم على استخلاص البصمة الحقيقية. هذه الاستراتيجية تقلل من خطر الاستعادة دون التأثير على فعالية عملية التحرير. الكود الخاص بالهجوم والدفاع متاح على منصة GitHub، مما يفتح المجال أمام أبحاث مستقبلية لاختبار هذه الثغرة وتطوير أدوات أمان أكثر تطورًا. يُعدّ هذا البحث خطوة مهمة نحو فهم المخاطر الأمنية المتأصلة في عمليات تحرير النماذج، ويُسلط الضوء على الحاجة إلى تضمين حلول أمنية مُدمجة في مراحل تطوير نماذج الذكاء الاصطناعي، خاصة مع الاعتماد المتزايد عليها في مجالات حساسة مثل الرعاية الصحية والخدمات الحكومية.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي قد تُسرب بيانات حساسة عبر "بصمات" التحديثات

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي قد تُسرب بيانات حساسة عبر "بصمات" التحديثات

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي قد تُسرب بيانات حساسة عبر "بصمات" التحديثات

الروابط ذات الصلة