الشيطان خلف القناع: ثغرة أمان ناشئة في نماذج LLMs التفاضلية

النماذج اللغوية الكبيرة القائمة على الانتشار (dLLMs) ظهرت مؤخرًا كبدائل قوية للنماذج اللغوية التلقائية (autoregressive LLMs)، حيث تقدم استدلالًا أسرع وتفاعلًا أكبر من خلال الترميز المتوازي والنمذجة ثنائية الاتجاه. ومع ذلك، رغم الأداء القوي في إنشاء الشفرة وملء النص، فقد حددنا مخاوف أساسية تتعلق بالسلامة: آليات التحالف الحالية لا تحمي النماذج اللغوية القائمة على الانتشار (dLLMs) من الدفعات المعادية التي تعتمد على السياق والمدخلات المقنعة، مما يكشف عن نقاط ضعف جديدة. لهذا الغرض، نقدم DIJA، أول دراسة منهجية وإطار هجومي للكسر الذي يستغل نقاط الضعف الفريدة للسلامة في النماذج اللغوية القائمة على الانتشار (dLLMs). بشكل خاص، يقوم الإطار المقترح DIJA ببناء دفعات معادية تتداخل فيها العناوين المقنعة والنصوص التي تستغل آليات إنشاء النص في النماذج اللغوية القائمة على الانتشار (dLLMs)، مثل النمذجة ثنائية الاتجاه والترميز المتوازي. تعمل النمذجة ثنائية الاتجاه على دفع النموذج لإنتاج مخرجات متسقة سياقيًا للمساحات المقنعة، حتى عند وجود ضرر، بينما يحد الترميز المتوازي من فلترة المحتوى غير الآمن وعينة الرفض الديناميكية للنموذج. هذا يؤدي إلى فشل آليات التحالف القياسية، مما يمكن من إكمال الضار في النماذج اللغوية الكبيرة المعدلة للتحالف (alignment-tuned dLLMs)، حتى عندما يتم الكشف مباشرة عن سلوكيات ضارة أو تعليمات غير آمنة في الدفعة. من خلال التجارب الشاملة، نثبت أن DIJA تتفوق بشكل كبير على طرق الكسر الموجودة سابقًا، مما يكشف عن سطح تهديد تم تغافله سابقًا في بنية نماذج dLLM. وبشكل لافت للنظر، حققت طريقتنا نسبة نجاح الاستجابة الكلامية (ASR) تصل إلى 100٪ على Dream-Instruct، متجاوزة أقوى خط أساس سابق هو ReNeLLM بنسبة تصل إلى 78.5٪ في نسبة الاستجابة المستندة إلى المقيم (evaluator-based ASR) على JailbreakBench و37.7 نقطة في درجة StrongREJECT، دون الحاجة إلى إعادة كتابة أو إخفاء أي محتوى ضار في دفعة الكسر. هذه النتائج تؤكد الحاجة الملحة لإعادة النظر في تحالف السلامة لهذه الفئة الجديدة من النماذج اللغوية. الرمز متاح على https://github.com/ZichenWen1/DIJA.