HyperAI
Back to Headlines

كرومي: إطار العمل ذو الثبات السببي للنموذج الجائز في تعديل نماذج اللغة المتماسكة

منذ 2 أيام

كروم: إطار غوغل ديبمايند السببي للنمذجة المكافئة في موازنة نماذج اللغة الذكية النماذج المكافئة (reward models) هي مكونات أساسية في موازنة نماذج اللغة الذكية (LLMs) مع ردود الفعل البشرية، ولكنها تواجه تحديات كبيرة فيما يتعلق بمشكلة التلاعب بالمكافآت (reward hacking). تركز هذه النماذج غالبًا على السمات السطحية مثل طول الرد أو التنسيق، بدلاً من تحديد المؤشرات الحقيقية للجودة مثل الصحة والملاءمة. هذا المشكلة تنشأ لأن الأهداف التدريبية القياسية فاشلة في التمييز بين الارتباطات الزائفة الموجودة في بيانات التدريب والسائقين السببين الحقيقيين لجودة الرد. فشل الفصل بين هذه العوامل يؤدي إلى نماذج مكافئة هشة (brittle RMs) تقوم بإنشاء سياسات غير متناسقة. حدود الأساليب الحالية وضرورة القوة السببية تحاول الأساليب الحالية حل مشكلة التلاعب بالمكافآت في أنظمة تعزيز التعلم القائم على ردود الفعل البشرية (RLHF) التي تعتمد على طرق الترتيب الثنائي مثل Bradley-Terry. تشمل هذه الأساليب تعديلات في الهندسة المعمارية، مثل Odin، وتعديلات على مستوى السياسة، وأساليب مركزية حول البيانات牵涉到集合或一致性检查. 然而,这些方法仅针对预设的虚假因素,忽略了未知的相关性。此外,增强策略仍然粗糙,以评估为中心的方法未能为奖励模型提供针对各种虚假变异的强大训练机制。 تقديم كروم: نموذج مكافئة قوي سببيًا لنماذج اللغة الذكية باحثون من شركة غوغل ديبمايند وجامعة ماكجيل ومعهد كيبيك للذكاء الصناعي (MILA) قد اقترحوا إطارًا جديدًا يُسمى "كروم" (Causally Robust Reward Modeling). يُعتمد كروم على نموذج سببي واضح لإنشاء الإجابات، ويُدرب النماذج المكافئة على تمييز السائقين الحقيقيين للجودة من الدلائل السطحية من خلال إضافة مجموعات البيانات المرتبطة بال Choices to the preference datasets with targeted, LLM-generated counterfactual examples. إضافة إلى ذلك، يقوم كروم بإنشاء نوعين من أزواج التدريب الصناعية: (أ) التعزيزات السببية، التي تدخل تغييرات على سمات سببية محددة مثل الصحة لتعزيز الحساسية لتغيرات الجودة الحقيقية، و (ب) التعزيزات المحايدة التي تفرض الثبات على السمات الزائفة مثل الأسلوب باستخدام علامات التعادل. يعزز كروم القوة، مما يؤدي إلى زيادة دقة RewardBench بنسبة تصل إلى 4.5%، وتحسين السلامة والمنطق. المقاربة التقنية: تعزيز المواقف المضادة وتقييم الخسارة المركبة يعمل كروم عبر مرحلتين رئيسيتين: إنشاء بيانات مواقف مضادة على دراية بالسمات بناءً على نموذج سببي، وتدريب النموذج المكافئ باستخدام خسارة مُخصصة على البيانات المركبة. يقدم الباحثون تحليلًا نظريًا حول كيفية عزل السائقين الحقيقيين للمكافآت عن الارتباطات الزائفة تحت نموذج مثالي. يستخدم كروم مجموعة البيانات UltraFeedback مع مواقف مضادة تُنشأ باستخدام Gemini 2.0 Flash، ويقيم الأداء على RewardBench وreWordBench. استخدم الباحثون نماذج لغوية ذكية مختلفة في تجاربهم، بما في ذلك Gemma-2-9B-IT وQwen2.5-7B وGemma-2-2B لكل من نماذج التفضيل الثنائية وBradley-Terry، مع تأثير التوافق اللاحق من خلال اختيار أفضل ن من عدة مهام. مكاسب الأداء: من RewardBench إلى WildGuardTest على RewardBench، حقق كروم تحسينات في دقة الترتيب مقارنة بـRRM عبر مجموعة متنوعة من النماذج الأساسية، مع مكاسب كبيرة في فئات السلامة (تصل إلى 13.18%) وتحسين المنطق (تصل إلى 7.19%). يظهر كروم مكاسب دقيقة مجمعة تصل إلى 9.1% على reWordBench باستخدام Gemma-2-9B-IT في إعدادات PairPM، ويتفوق في 21 من 23 تحويلًا. بالإضافة إلى ذلك، يُظهر انخفاضًا أقل في دقة الترتيب من RewardBench إلى reWordBench مقارنة بـRRM (19.78% مقابل 21.54%). حقق كروم تحسينات سلامة ممتازة على WildGuardTest مع اختيار أفضل ن، حيث حقق نسب نجاح هجومية أقل على الدوافع الضارة مع الحفاظ على معدلات رفض مماثلة على الدوافع البريئة. الخلاصة واتجاهات البحث المستقبلية في تعزيز البيانات السببية في الخلاصة، قدم الباحثون كروم، وهو إطار سببي يحل مشكلة التلاعب بالمكافآت خلال تدريب النماذج المكافئة. يُستخدم كروم لاستراتيجيتين رئيسيتين في تعزيز البيانات الصناعية: التعزيزات السببية والتعزيزات المحايدة. تفوق كروم على النقاط القوية في العديد من النماذج الأساسية وتقنيات النمذجة المكافئة على RewardBench، وأظهر قوة أفضل على reWordBench ضد الارتباطات الزائفة. يفتح هذا النهج المركزي لجمع البيانات آفاقًا جديدة في البحث حول إنشاء البيانات الصناعية لتدريب النماذج الأساسية، حيث يمكن أن تكون التحقق من السمات السببية مفيدًا للغاية لتطورات المستقبل في تطابق النماذج اللغوية القوية. تقييم الحدث من قبل المختصين يُعتبر كروم خطوة مهمة نحو تحسين دقة وقوة النماذج المكافئة في نماذج اللغة الذكية. يرى الخبراء أن هذا الإطار يمكن أن يساهم بشكل كبير في تطوير نماذج لغوية أكثر ثباتًا وموثوقية، مما يعزز استخدامها في التطبيقات الحيوية مثل الأمن السيبراني والصحة الرقمية. تُعد غوغل ديبمايند من الشركات الرائدة في مجال الذكاء الصناعي، وقد ساهمت في العديد من التطورات الهامة في هذا المجال، مما يجعل كروم إضافة قيمة إلى أدوات الموازنة اللغوية.

Related Links