Command Palette
Search for a command to run...
تحسين التفضيل المباشر مع تنوّع التفضيلات غير الملاحظة: ضرورة التفضيلات الثلاثية
Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

الملخص
لقد أصبح التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) محورياً في محاذاة النماذج اللغوية الكبيرة مع القيم البشرية، وذلك عادةً من خلال تعلُّم نموذج مكافأة من بيانات التفضيلات أولاً، ثم استخدام هذا النموذج لتحديث النموذج باستخدام التعلم المعزز. وتشمل البدائل الحديثة مثل تحسين التفضيلات المباشر (DPO) تبسيط هذه العملية من خلال التحسين المباشر على أساس التفضيلات. ومع ذلك، فإن كلا النهجين يفترضان عادةً أن تفضيلات المُقيّمين متجانسة، ويعتمدان على المقارنات الثنائية، مما يتجاهل قَدْرَين رئيسيين من القيود: تنوع المُقيّمين البشر، وقيود التغذية الراجعة الزوجية. في هذا العمل، نعالج كلا المشكلتين. أولاً، نربط تعلُّم التفضيلات في RLHF بالكتابات الاقتصادية الإحصائية، ونُظهر أن المقارنات الثنائية لا تكفي لتحديد تفضيلات المستخدمين الخفية من بيانات مستخدمين منتهية وعدد غير محدود من المستخدمين، بينما تضمن التصنيفات (حتى لو كانت غير كاملة) لثلاثة أو أكثر من الاستجابات التمييز بين هذه التفضيلات. ثانيًا، نقدّم أساليب لدمج التفضيلات المختلفة في خوارزميات المحاذاة. ونُطوّر نسخة من خوارزمية DPO تعتمد على خوارزمية التوقع-الحد الأقصى (Expectation-Maximization)، تُكتشف من خلالها أنواع المُقيّمين الخفية، وتُدرّب مزيجًا من النماذج اللغوية الكبيرة بناءً عليها. ثم نقترح خوارزمية تجميع تعتمد على معيار عادل يُقلل من أقصى خسارة (min-max regret) لضمان أداء عادل في النهاية. جماعًا، تُشكّل هذه المساهمات إطارًا نظريًا وخوارزميًا لضمان العدالة والتكيف الشخصي لمستخدمين متنوعين في عملية محاذاة النماذج التوليدية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.