HyperAI
منذ 18 أيام

المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر

Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر
الملخص

تقييم التوليد المفتوح الطويل هو تحدي بسبب صعوبة تعريف ما يفصل بوضوح بين الإخراجات الجيدة والسيئة. تفتقد الطرق الحالية جوانب رئيسية مثل التجانس، الأسلوب، أو الصلة، أو تكون متحيزة بسبب بيانات التدريب الأولي، مما يجعل تقييم التوليد المفتوح الطويل مشكلة غير مستكشفة بشكل كافٍ. لمعالجة هذا النقص، نقترح PrefBERT، وهو نموذج تقييم لدعم التوليد المفتوح الطويل في GRPO وترشيد تدريبه باستخدام مكافآت متميزة للإخراجات الجيدة والسيئة. تم تدريب PrefBERT على مجموعتين من بيانات تقييم الاستجابات ذات الأساليب الطويلة والمتنوعة ونوعية الاستجابات التي تم تصنيفها حسب مقاييس ليكرت (Likert-rated)، ويقدم PrefBERT دعمًا فعالًا لـ GRPO من خلال تقديم ردود فعل مكافآت معنوية أفضل من المقاييس التقليدية مثل ROUGE-L و BERTScore. من خلال تقييمات شاملة تتضمن استخدام LLM-as-a-judge، وتقييمات البشرية، وتحليل نوعي، نوضح أن PrefBERT الذي تم تدريبه على استجابات متعددة الجمل والفقرات يظل موثوقًا عبر مجموعة متنوعة من النصوص الطويلة ويتناسب بشكل جيد مع المكافآت القابلة للتحقق التي يحتاجها GRPO. أكدت التقييمات البشرية أن استخدام PrefBERT كإشارة للمكافأة لتدريب نماذج السياسة يؤدي إلى استجابات أكثر انسجامًا مع تفضيلات الإنسان مقارنة بتلك التي تم تدريبها باستخدام المقاييس التقليدية. شفرتنا متاحة على الرابط: https://github.com/zli12321/long_form_rl.