HyperAIHyperAI

Command Palette

Search for a command to run...

المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

الملخص

تقييم التوليد المفتوح الطويل هو تحدي بسبب صعوبة تعريف ما يفصل بوضوح بين الإخراجات الجيدة والسيئة. تفتقد الطرق الحالية جوانب رئيسية مثل التجانس، الأسلوب، أو الصلة، أو تكون متحيزة بسبب بيانات التدريب الأولي، مما يجعل تقييم التوليد المفتوح الطويل مشكلة غير مستكشفة بشكل كافٍ. لمعالجة هذا النقص، نقترح PrefBERT، وهو نموذج تقييم لدعم التوليد المفتوح الطويل في GRPO وترشيد تدريبه باستخدام مكافآت متميزة للإخراجات الجيدة والسيئة. تم تدريب PrefBERT على مجموعتين من بيانات تقييم الاستجابات ذات الأساليب الطويلة والمتنوعة ونوعية الاستجابات التي تم تصنيفها حسب مقاييس ليكرت (Likert-rated)، ويقدم PrefBERT دعمًا فعالًا لـ GRPO من خلال تقديم ردود فعل مكافآت معنوية أفضل من المقاييس التقليدية مثل ROUGE-L و BERTScore. من خلال تقييمات شاملة تتضمن استخدام LLM-as-a-judge، وتقييمات البشرية، وتحليل نوعي، نوضح أن PrefBERT الذي تم تدريبه على استجابات متعددة الجمل والفقرات يظل موثوقًا عبر مجموعة متنوعة من النصوص الطويلة ويتناسب بشكل جيد مع المكافآت القابلة للتحقق التي يحتاجها GRPO. أكدت التقييمات البشرية أن استخدام PrefBERT كإشارة للمكافأة لتدريب نماذج السياسة يؤدي إلى استجابات أكثر انسجامًا مع تفضيلات الإنسان مقارنة بتلك التي تم تدريبها باستخدام المقاييس التقليدية. شفرتنا متاحة على الرابط: https://github.com/zli12321/long_form_rl.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر | مستندات | HyperAI