HyperAIHyperAI

Command Palette

Search for a command to run...

Skywork-Reward-V2: توسعة تهيئة بيانات التفضيل عبر التعاون بين الإنسان والذكاء الاصطناعي

الملخص

رغم الدور الحاسم لنموذج الجائزة (RMs) في التعلم التعزيزي من التغذية الراجعة البشرية (RLHF)، فإن أفضل النماذج المفتوحة الحالية تؤدي بشكل سيء في معظم مقاييس التقييم الموجودة، حيث فشلت في التقاط طيف التفضيلات البشرية الدقيقة والمعقدة. وحتى الأساليب التي تدمج تقنيات تدريب متقدمة لم تحقق تحسينات ذات معنى في الأداء. نفترض أن هذا الهشاشة تنبع أساسًا من قيود في مجموعات البيانات للتفضيلات، والتي غالبًا ما تكون ضيقة النطاق أو مصنفة بشكل صناعي أو تعاني من نقص في الرقابة النوعية الصارمة. لمعالجة هذه التحديات، نقدم مجموعة بيانات تفضيلية على نطاق واسع تتكون من 40 مليون زوج من التفضيلات، وتُسمى SynPref-40M. لتمكين عملية جمع البيانات على نطاق واسع، نصمم أنابيب عمل ثنائية المرحلة تعتمد على التعاون بين الإنسان والذكاء الاصطناعي، مما يتيح الاستفادة من القوى المكملة لنوعية الإشراف البشري وقابلية توسع الذكاء الاصطناعي. في هذه الأنابيب، يقوم البشر بتقديم إشراف موثق، بينما تقوم النماذج اللغوية الكبيرة بعملية جمع البيانات بشكل آلي بناءً على إرشادات بشرية. بناءً على هذا الخليط من التفضيلات، نقدم Skywork-Reward-V2، وهي سلسلة تتكون من ثماني نماذج للجائزة تتراوح أعداد معلماتها بين 0.6 مليار و8 مليارات معلمة، وقد تم تدريبها على مجموعة فرعية محصلة بدقة تحتوي على 26 مليون زوج من التفضيلات من SynPref-40M. نوضح أن Skywork-Reward-V2 متعددة الاستخدامات عبر مجموعة واسعة من القدرات، بما في ذلك التناغم مع التفضيلات البشرية، صحة الأهداف، السلامة، المقاومة للتحيزات الأسلوبية، وتوسيع نطاق الاختيار الأفضل من N (best-of-N scaling)، حيث حققت أداءً رائدًا عبر سبعة مقاييس رئيسية لأداء نموذج الجائزة. وتؤكد دراسات الإلغاء أن فعالية أسلوبنا تنبع ليس فقط من حجم البيانات بل أيضًا من نوعية جمع البيانات العالية. تمثل سلسلة Skywork-Reward-V2 تقدمًا كبيرًا في مجال النماذج المفتوحة للجائزة، مما يسلط الضوء على الإمكانات غير المستغلة لمجموعات البيانات للتفضيلات الحالية ويظهر كيف يمكن أن يفتح التعاون بين الإنسان والذكاء الاصطناعي في جمع البيانات الطريق أمام تحقيق نوعية بيانات أعلى بكثير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp