HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل محاذاة UNA

التاريخ

منذ عام واحد

UNA تعني إطار عمل المحاذاة الموحدة، وهو إطار عمل محاذاة جديد اقترحه فريق بحثي من Salesforce وجامعة شيامن. نتائج الورقة ذات الصلة هيUNA: توحيد محاذاة RLHF/PPO وDPO وKTO من خلال دالة المكافأة الضمنية المعممة".

الفكرة الأساسية لـ UNA هي توحيد تقنيات المحاذاة المختلفة، بما في ذلك RLHF/PPO وDPO وKTO، من خلال دالة مكافأة ضمنية معممة. إن الجديد في هذا النهج هو أنه يدمج تقنيات المحاذاة هذه في مشكلة التعلم الخاضع للإشراف لتقليل الفرق بين المكافآت الضمنية والصريحة.

تم اقتراح UNA لمعالجة بعض القيود التي تواجه تقنيات المحاذاة الحالية. على سبيل المثال، يتطلب RLHF تدريب نموذج المكافأة والسياسة بشكل منفصل، وهو أمر معقد ويستغرق وقتًا طويلاً ويستهلك الكثير من الذاكرة وغير مستقر أثناء التدريب. على الرغم من أن DPO يقترح علاقة رسم خرائط بين الاستراتيجية المثلى والمكافأة ويبسط عملية تدريب RLHF، إلا أنه لا يستطيع الاستفادة الكاملة من نموذج المكافأة ويقتصر على بيانات التفضيل المزدوجة. تثبت UNA رياضيا أنه بالنظر إلى هدف RLHF الكلاسيكي، يمكن استحثاث السياسة المثلى من خلال دالة مكافأة ضمنية معممة. يتيح هذا التعيين الجديد لـ UNA تبسيط RLHF/PPO مع تثبيت وتسريع وتقليل عبء الذاكرة لعملية الضبط الدقيق RL، واستيعاب أنواع مختلفة من ردود الفعل، بما في ذلك ردود الفعل الزوجية والثنائية والقياسية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إطار عمل محاذاة UNA | الموسوعة | HyperAI