HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

تحسين التفضيل المباشر مع تنوّع التفضيلات غير الملاحظة: ضرورة التفضيلات الثلاثية

Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

تحسين التفضيل المباشر مع تنوّع التفضيلات غير الملاحظة: ضرورة التفضيلات الثلاثية

الملخص

لقد أصبح التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) محورياً في محاذاة النماذج اللغوية الكبيرة مع القيم البشرية، وذلك عادةً من خلال تعلُّم نموذج مكافأة من بيانات التفضيلات أولاً، ثم استخدام هذا النموذج لتحديث النموذج باستخدام التعلم المعزز. وتشمل البدائل الحديثة مثل تحسين التفضيلات المباشر (DPO) تبسيط هذه العملية من خلال التحسين المباشر على أساس التفضيلات. ومع ذلك، فإن كلا النهجين يفترضان عادةً أن تفضيلات المُقيّمين متجانسة، ويعتمدان على المقارنات الثنائية، مما يتجاهل قَدْرَين رئيسيين من القيود: تنوع المُقيّمين البشر، وقيود التغذية الراجعة الزوجية. في هذا العمل، نعالج كلا المشكلتين. أولاً، نربط تعلُّم التفضيلات في RLHF بالكتابات الاقتصادية الإحصائية، ونُظهر أن المقارنات الثنائية لا تكفي لتحديد تفضيلات المستخدمين الخفية من بيانات مستخدمين منتهية وعدد غير محدود من المستخدمين، بينما تضمن التصنيفات (حتى لو كانت غير كاملة) لثلاثة أو أكثر من الاستجابات التمييز بين هذه التفضيلات. ثانيًا، نقدّم أساليب لدمج التفضيلات المختلفة في خوارزميات المحاذاة. ونُطوّر نسخة من خوارزمية DPO تعتمد على خوارزمية التوقع-الحد الأقصى (Expectation-Maximization)، تُكتشف من خلالها أنواع المُقيّمين الخفية، وتُدرّب مزيجًا من النماذج اللغوية الكبيرة بناءً عليها. ثم نقترح خوارزمية تجميع تعتمد على معيار عادل يُقلل من أقصى خسارة (min-max regret) لضمان أداء عادل في النهاية. جماعًا، تُشكّل هذه المساهمات إطارًا نظريًا وخوارزميًا لضمان العدالة والتكيف الشخصي لمستخدمين متنوعين في عملية محاذاة النماذج التوليدية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين التفضيل المباشر مع تنوّع التفضيلات غير الملاحظة: ضرورة التفضيلات الثلاثية | الأوراق البحثية | HyperAI