ديبمايند تطلق كروم: إطار سببي لتحسين نمذجة المكافآت في توافق النماذج اللغوية الكبيرة مع ردود الفعل البشرية
تلخيص مقالات حول النماذج الجائزة للأنظمة اللغوية الكبيرة الملخص الرئيسي النماذج الجائزة هي مكونات أساسية للتوافق بين النماذج اللغوية الكبيرة (LLMs) والمشورة البشرية، لكنها تواجه تحديات كبيرة بسبب مشكلة «الجائزة المزيفة» أو «الجائزة المختلسة». هذه النماذج تركز على الخصائص السطحية مثل طول الرد أو التنسيق بدلاً من تحديد مؤشرات الجودة الحقيقية مثل الدقة والصلة. ينشأ هذا المشكل لأن أهداف التدريب القياسية لا تتمكّن من التمييز بين الارتباطات الزائفة المتواجدة في البيانات التدريبية والسائقات الحقيقية للجودة. هذا التقصير يؤدي إلى نماذج جائزة هشّة (RMs) تنتج سياسات غير متوافقة. تتعدّد الأساليب الحالية التي تحاول حل مشكلة الجائزة المختلسة في أنظمة التعلم التقويمي المدعوم بالمشورة البشرية (RLHF) التي تعتمد على طرق الترتيب البيني (Bradley-Terry) أو الرتب الثنائية. تشمل هذه الأساليب تعديلات في الهيكل مثل Odin، تعديلات على مستوى السياسة، ومعالجات متمحورة حول البيانات تشمل المجموعات أو فحوصات التوافق. الأساليب الملهمة بالسياق السببي تستخدم التسوية MMD ضد عوامل زائفة محددة مسبقًا أو تقدير الآثار السببية عبر إعادة الكتابة المصححة. ومع ذلك، تستهدف هذه الأساليب فقط عوامل زائفة محددة مسبقًا، مما يجعلها غير قادرة على التعامل مع الارتباطات الزائفة غير المعروفة. بالإضافة إلى ذلك، تعد استراتيجيات التوسيع خشنة، والأساليب المتمحورة حول التقييم غير قادرة على توفير آليات تدريب قوية ضد تباينات زائفة متنوعة. في هذا السياق، اقترح باحثون من Google DeepMind، جامعة ماكغيل، ومعهد MILA – Quebec AI Institute إطارًا جديدًا يُدعى Crome (Causally Robust Reward Modeling). يعتمد هذا الإطار على نموذج سببي واضح لإنشاء الأجوبة، ويتدرب على تمييز السائقات الحقيقية للجودة عن الخصائص السطحية عبر إضافة أمثلة مضادة محتملة، مولدة بواسطة النماذج اللغوية الكبيرة، إلى مجموعات البيانات المفضية. يخلق Crome نوعين من أزواج التدريب الصناعية: (أ) التوسيع السببي، الذي يدخل تغييرات على سمات سببية محددة مثل الدقة لفرض حساسية الجودة الحقيقية، و (ب) التوسيع المحايد، الذي يفرض ثباتًا على السمات الزائفة مثل الأسلوب باستخدام التسميات المستوية. يعمل Crome عبر مرحلتين رئيسيتين: توليد بيانات مضادة محددة الصفات بناءً على نموذج سببي، وتدريب النموذج الجائزة باستخدام دالة خسارة مخصصة على البيانات المركبة. قدم الباحثون تحليلًا نظريًا حول كيفية قدرة التوسيع السببي على تعيين السائقات الحقيقية للجائزة من الارتباطات الزائفة في نموذج مثالي. استخدم Crome مجموعة بيانات UltraFeedback مع أمثلة مضادة مولدة بواسطة Gemini 2.0 Flash، وتم تقييم أدائه على RewardBench و reWordBench. في تجاربهم، استخدم الباحثون نماذج لغوية كبرى متنوعة، بما في ذلك Gemma-2-9B-IT، Qwen2.5-7B، و Gemma-2-2B، لكل من النماذج الجائزة الرتبية الثنائية والرتبية البينية، مع تأثير التوافق اللاحق من خلال اختيار أفضل نموذج من N نموذج في مهام متعددة. على RewardBench، حقق Crome تحسينات في دقة الترتيب مقارنة بـ RRM عبر نماذج أساسية متنوعة، مع مكاسب كبيرة في فئات السلامة (تصل إلى ١٣.٢٪) والمنطق (تصل إلى ٧.٢٪). أظهر Crome مكاسب دقيقة تراكمية تصل إلى ٩.١٪ على reWordBench باستخدام Gemma-2-9B-IT في إعدادات PairPM وأداء أفضل في ٢١ من ٢٣ تحويل. كما أظهر انخفاضًا أصغر في دقة الترتيب من RewardBench إلى reWordBench مقارنة بـ RRM (١٩.٧٨٪ مقابل ٢١.٥٤٪). أظهر Crome تحسينات عالية في السلامة على WildGuardTest مع اختيار أفضل نموذج من N نموذج، حيث حقق نسب نجاح أقل في الهجمات على الإرشادات الضارة بينما حافظ على معدلات رفض مماثلة للإرشادات البريئة. الرسالة السياقية أكد الخبراء والمتخصصون في مجال الذكاء الصناعي على أهمية Crome في تحسين التوافق بين النماذج اللغوية الكبيرة والمشورة البشرية. يعتبر Google DeepMind من المؤسسات الرائدة في تطوير تقنيات الذكاء الصناعي، وتعاونه مع جامعة ماكغيل ومعهد MILA – Quebec AI Institute يعكس الرغبة في تحقيق تقدم كبير في هذا المجال. الأثر الأوسع لمبادرة Crome هو تعزيز الثقة والأمان في تطبيقات الذكاء الصناعي، حيث أن نماذج الجائزة الأكثر قوة وثباتًا تساهم في تقليل المخاطر المرتبطة بالأخطاء والهجمات السيئة. كما أن هذا الإطار يفتح آفاقًا جديدة في البحث حول توليد البيانات الصناعية لتدريب النماذج الأساسية، مما يمكن أن يكون مفيدًا للغاية في تطوير مزيد من التوافق القوي لنماذج اللغة في المستقبل.