Skywork-Reward-V2: توسعة تهيئة بيانات التفضيل عبر التعاون بين الإنسان والذكاء الاصطناعي

رغم الدور الحاسم لنموذج الجائزة (RMs) في التعلم التعزيزي من التغذية الراجعة البشرية (RLHF)، فإن أفضل النماذج المفتوحة الحالية تؤدي بشكل سيء في معظم مقاييس التقييم الموجودة، حيث فشلت في التقاط طيف التفضيلات البشرية الدقيقة والمعقدة. وحتى الأساليب التي تدمج تقنيات تدريب متقدمة لم تحقق تحسينات ذات معنى في الأداء. نفترض أن هذا الهشاشة تنبع أساسًا من قيود في مجموعات البيانات للتفضيلات، والتي غالبًا ما تكون ضيقة النطاق أو مصنفة بشكل صناعي أو تعاني من نقص في الرقابة النوعية الصارمة. لمعالجة هذه التحديات، نقدم مجموعة بيانات تفضيلية على نطاق واسع تتكون من 40 مليون زوج من التفضيلات، وتُسمى SynPref-40M. لتمكين عملية جمع البيانات على نطاق واسع، نصمم أنابيب عمل ثنائية المرحلة تعتمد على التعاون بين الإنسان والذكاء الاصطناعي، مما يتيح الاستفادة من القوى المكملة لنوعية الإشراف البشري وقابلية توسع الذكاء الاصطناعي. في هذه الأنابيب، يقوم البشر بتقديم إشراف موثق، بينما تقوم النماذج اللغوية الكبيرة بعملية جمع البيانات بشكل آلي بناءً على إرشادات بشرية. بناءً على هذا الخليط من التفضيلات، نقدم Skywork-Reward-V2، وهي سلسلة تتكون من ثماني نماذج للجائزة تتراوح أعداد معلماتها بين 0.6 مليار و8 مليارات معلمة، وقد تم تدريبها على مجموعة فرعية محصلة بدقة تحتوي على 26 مليون زوج من التفضيلات من SynPref-40M. نوضح أن Skywork-Reward-V2 متعددة الاستخدامات عبر مجموعة واسعة من القدرات، بما في ذلك التناغم مع التفضيلات البشرية، صحة الأهداف، السلامة، المقاومة للتحيزات الأسلوبية، وتوسيع نطاق الاختيار الأفضل من N (best-of-N scaling)، حيث حققت أداءً رائدًا عبر سبعة مقاييس رئيسية لأداء نموذج الجائزة. وتؤكد دراسات الإلغاء أن فعالية أسلوبنا تنبع ليس فقط من حجم البيانات بل أيضًا من نوعية جمع البيانات العالية. تمثل سلسلة Skywork-Reward-V2 تقدمًا كبيرًا في مجال النماذج المفتوحة للجائزة، مما يسلط الضوء على الإمكانات غير المستغلة لمجموعات البيانات للتفضيلات الحالية ويظهر كيف يمكن أن يفتح التعاون بين الإنسان والذكاء الاصطناعي في جمع البيانات الطريق أمام تحقيق نوعية بيانات أعلى بكثير.