HyperAI
Back to Headlines

باحثو جامعة وهان يستعدون لعرض دراستهم المُستقِبلة في USENIX Security 2025: "EmbedX" الحل المبتكر للأمان ضد هجمات باب الخلفية على نماذج اللغات الكبيرة

منذ 6 أيام

في إنجاز بارز للبحث العلمي في المجال الإلكتروني، تم قبول بحث من تأليف الطالب يان نان، وهو من طلاب السنة الأولى للدراسات العليا في كلية الأمن السيبراني الوطنية بجامعة ووهان، في المؤتمر الـ34 لـUSENIX Security Symposium، الذي سيتم عقده في الفترة من 13 إلى 15 أغسطس 2025 في مدينة سياتل. يحمل البحث عنوان "EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models" (EmbedX: هجوم بوابة الخلفية عبر محفزات متعددة على أساس متجهات التضمين ضد النماذج اللغوية الكبيرة)، وقد أشرف عليه الباحثون من جامعة ووهان، الدكتور لي يوتشينغ، الأستاذ شين جينغ، والأستاذ المساعد هو كون. كما شارك في هذا البحث الأستاذ المساعد وانغ شيونغ من جامعة هوازهونغ للعلوم والتكنولوجيا، والأستاذ لي بو من جامعة هونغ كونغ للتكنولوجيا. النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 وLLaMA قد أظهرت تفوقًا كبيرًا في مهام معالجة اللغة الطبيعية، مما جعلها تُستخدم بشكل واسع في مجالات مثل الأسئلة والإجابات، الترجمة، وإنشاء النصوص. ومع ذلك، كشفت البحوث الأخيرة أن هذه النماذج تواجه مخاطر أمنية خطيرة، خاصة من الهجمات التي تعتمد على بوابات الخلفية: حيث يمكن للهجمين أن يغرسوا كلمات محفزة محددة أثناء عملية التدريب، مما يجعل النموذج يستجيب بطريقة خبيثة أو خاطئة عند استقباله لمدخلات محددة. من بين التحديات المرتبطة بهذه الهجمات هي صعوبة إيجاد أفضل محفز تلقائيًا، بالإضافة إلى عدم قدرتها على التكيف مع أنماط اللغة المختلفة للمستخدمين والبيئات الثقافية واللغوية المتنوعة. للتغلب على هذه التحديات، اقترح الباحثون نظام EmbedX، وهو إطار للهجمات التي تعتمد على بوابة الخلفية عبر محفزات متعددة مبني على أساس متجهات التضمين. بدلاً من الاعتماد على الكلمات المحفزة المتقطعة، يقوم EmbedX بتوليد محفزات "لينة" عن طريق تحسين المتجهات المستمرة. يمكن لهذه المحفزات اللينة أن تتغير وتُعدل حسب السياق الأمني المحدد، مما يتيح استخدامها في هجمات عبر محفزات متعددة دون الحاجة إلى إعادة تدريب النموذج. كما يتم تضمين العديد من الكلمات ذات الأنماط اللغوية المختلفة في التدريب لتتوافق مع المحفزات اللينة في مستوى التضمين، مما يمكنها من تنشيط الاستجابة نفسها للهجمة الخلفية. لزيادة خفية الهجوم، استخدمت EmbedX قيودًا مزدوجة في المجال الترددي وفي فضاء التدرج، مما يجعل العينات المسمومة تبدو أقرب للعينات الطبيعية في فضاء النموذج الكامن. أجريت التجارب باستخدام عدة نماذج لغوية مشهورة ومفتوحة المصدر مثل LLaMA، BLOOM، وGemma، وذلك في بيئات لغوية متنوعة تشمل ست لغات، وأظهرت النتائج أن EmbedX يتفوق على الأساليب السابقة من حيث نجاح الهجوم وكفاءة الوقت وخفة الظل. حيث أمكن تحقيق نقل سريع للمحفزات المتعددة في غضون حوالي 0.53 ثانية فقط، مع معدل نجاح يقارب 100%، وزادت دقة النموذج بنسبة 3.2%. هذه الدراسة ليست فقط تكشف عن نقاط ضعف محتملة في آليات الدفاع الحالية على مستوى المعنى، بل أيضًا تقدم أساسًا نظريًا لتطوير تقنيات أكثر فعالية وخفة ظل للكشف عن البوابات الخلفية في النماذج اللغوية الكبيرة. USENIX Security Symposium هو أحد أبرز المؤتمرات الدولية في مجال الأمن السيبراني، يُعقد سنويًا منذ عام 1990، ويُعتبر من بين أربعة مؤتمرات رائدة في هذا المجال إلى جانب IEEE S&P، ACM CCS، وNDSS. كما أنه من المؤتمرات الموصى بها من قبل الجمعية الصينية للحاسوب (CCF) ضمن الفئة A.

Related Links