HyperAIHyperAI
منذ شهر واحد

إعادة تشكيل نماذج اللغة لتقليل الأذى: الطرق، وسلوكيات التوسع، والدروس المستفادة

Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, et al
إعادة تشكيل نماذج اللغة لتقليل الأذى: الطرق، وسلوكيات التوسع، والدروس المستفادة
الملخص

نُقدّم وصفًا لجهودنا المبكرة في تقييم نماذج اللغة من خلال منهجية "التحفيز العكسي" (red teaming)، بهدف اكتشاف المخرجات المحتمل أن تكون ضارة فيها، وقياسها، ومحاولة تقليلها في آن واحد. ونُقدّم ثلاث مساهمات رئيسية. أولاً، نستعرض سلوك التوسع (scaling behaviors) في تقييم النماذج باستخدام منهجية التحدي العكسي عبر ثلاث أحجام نماذج مختلفة (2.7 مليار، 13 مليار، و52 مليار معامل)، وأربعة أنواع من النماذج: نموذج لغوي بسيط (LM)؛ ونموذج لغوي يُوجّه لكي يكون مساعداً، صادقاً، وغير ضار؛ ونموذج يُستخدم فيه عينة الرفض (rejection sampling)؛ ونموذج تم تدريبه ليكون مساعداً وغير ضار باستخدام التعلم المعزّز من خلال التغذية الراجعة البشرية (RLHF). ونجد أن نماذج RLHF تصبح أكثر صعوبة في التحدي العكسي مع زيادة حجم النموذج، بينما نلاحظ اتجاهًا مستوياً مع التوسع في باقي أنواع النماذج. ثانيًا، نُطلق مجموعة بياناتنا المكوّنة من 38,961 هجوماً مُعدّاً من قبل فريق التحدي العكسي، لتمكين الآخرين من تحليلها والتعلم منها. ونقدّم تحليلنا الخاص لهذه البيانات، ونُلاحظ تنوّعًا في المخرجات الضارة، تتراوح من استخدام لغة مهينة إلى مخرجات غير أخلاقية غير عنيفة ولكنها أكثر تهويلاً. ثالثًا، نقدّم وصفًا شاملاً لتعليماتنا، وعملياتنا، وطرقنا الإحصائية، ونقدّم توضيحات حول عدم اليقين المرتبط بتقييم النماذج باستخدام منهجية التحدي العكسي. ونأمل أن تُسهم هذه الشفافية في تسريع قدرتنا كمجتمع على العمل معًا، من أجل تطوير معايير مشتركة، وتقنيات معيارية، ومهارات عملية لتطبيق منهجية التحدي العكسي على نماذج اللغة.