إعادة تشكيل النماذج اللغوية الكبيرة باستخدام سلسلة من العبارات لتحسين التوافق من حيث السلامة

لقد أحدثت النماذج اللغوية الكبيرة (LLMs) ثورة عالمية بفضل قدرتها الهائلة على أداء مهام متعددة، وذلك من خلال التحسين فقط على هدف التنبؤ بالكلمة التالية. ومع ظهور خصائصها المُشَكَّلة والمعرفة المُشَغَّلة فيها، تزداد المخاطر المرتبطة بإنتاج النماذج لنتائج ضارة، مما يجعلها غير مناسبة للنشر على نطاق واسع أمام الجمهور. في هذا العمل، نقترح معيار تقييم جديد للسلامة يُسمى RED-EVAL، والذي يُطبّق تقنية "التحريض الأحمر" (red-teaming). ونُظهر أن النماذج المُطبَّقة على نطاق واسع ما زالت عُرضة لأساليب التحفيز القائمة على سلسلة من التصريحات (Chain of Utterances - CoU)، حيث يمكن اختراق أنظمة النماذج اللغوية الكبيرة المغلقة المصدر مثل GPT-4 وChatGPT، مما يُجبرها على الاستجابة بشكل غير أخلاقي لأكثر من 65% و73% من الأسئلة الضارة على التوالي. كما نُظهر استقرار معيار RED-EVAL عبر 8 نماذج لغوية مفتوحة المصدر في إنتاج استجابات ضارة في أكثر من 86% من محاولات التحريض. ثم، نقترح منهجية جديدة تُسمى RED-INSTRUCT، وهي منهجية مُخصصة لتوحيد السلامة في النماذج اللغوية الكبيرة، وتشمل مرحلتين: (1) جمع بيانات HARMFULQA: باستخدام تقنية التحفيز القائمة على سلسلة التصريحات (CoU)، نجمع مجموعة بيانات تتضمن 1.9 ألف سؤال ضار يغطي طيفًا واسعًا من المواضيع، و9.5 ألف محادثة آمنة و7.3 ألف محادثة ضارة مستمدة من ChatGPT؛ (2) SAFE-ALIGN: نُظهر كيف يمكن استخدام مجموعة المحادثات هذه لتوحيد السلامة في النماذج اللغوية الكبيرة من خلال تقليل الاحتمال السالب (negative log-likelihood) للإجابات المفيدة، مع معاقبة الإجابات الضارة عبر تعزيز الخسارة بالاعتماد على التدرج (gradient accent over sample loss). وقد لُوحظ أن نموذجنا STARLING، وهو نموذج مُعدّل مسبقًا من Vicuna-7B، يتمتع بتحسن ملحوظ في التوافق مع معايير السلامة عند تقييمه على معياري RED-EVAL وHHH، مع الحفاظ على فعالية النموذج الأصلي (TruthfulQA، MMLU، وBBH).