HyperAI

إطار عمل محاذاة UNA

UNA تعني إطار عمل المحاذاة الموحدة، وهو إطار عمل محاذاة جديد اقترحه فريق بحثي من Salesforce وجامعة شيامن. نتائج الورقة ذات الصلة هيUNA: توحيد محاذاة RLHF/PPO وDPO وKTO من خلال دالة المكافأة الضمنية المعممة".

الفكرة الأساسية لـ UNA هي توحيد تقنيات المحاذاة المختلفة، بما في ذلك RLHF/PPO وDPO وKTO، من خلال دالة مكافأة ضمنية معممة. إن الجديد في هذا النهج هو أنه يدمج تقنيات المحاذاة هذه في مشكلة التعلم الخاضع للإشراف لتقليل الفرق بين المكافآت الضمنية والصريحة.

تم اقتراح UNA لمعالجة بعض القيود التي تواجه تقنيات المحاذاة الحالية. على سبيل المثال، يتطلب RLHF تدريب نموذج المكافأة والسياسة بشكل منفصل، وهو أمر معقد ويستغرق وقتًا طويلاً ويستهلك الكثير من الذاكرة وغير مستقر أثناء التدريب. على الرغم من أن DPO يقترح علاقة رسم خرائط بين الاستراتيجية المثلى والمكافأة ويبسط عملية تدريب RLHF، إلا أنه لا يستطيع الاستفادة الكاملة من نموذج المكافأة ويقتصر على بيانات التفضيل المزدوجة. تثبت UNA رياضيا أنه بالنظر إلى هدف RLHF الكلاسيكي، يمكن استحثاث السياسة المثلى من خلال دالة مكافأة ضمنية معممة. يتيح هذا التعيين الجديد لـ UNA تبسيط RLHF/PPO مع تثبيت وتسريع وتقليل عبء الذاكرة لعملية الضبط الدقيق RL، واستيعاب أنواع مختلفة من ردود الفعل، بما في ذلك ردود الفعل الزوجية والثنائية والقياسية.