المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر

تقييم التوليد المفتوح الطويل هو تحدي بسبب صعوبة تعريف ما يفصل بوضوح بين الإخراجات الجيدة والسيئة. تفتقد الطرق الحالية جوانب رئيسية مثل التجانس، الأسلوب، أو الصلة، أو تكون متحيزة بسبب بيانات التدريب الأولي، مما يجعل تقييم التوليد المفتوح الطويل مشكلة غير مستكشفة بشكل كافٍ. لمعالجة هذا النقص، نقترح PrefBERT، وهو نموذج تقييم لدعم التوليد المفتوح الطويل في GRPO وترشيد تدريبه باستخدام مكافآت متميزة للإخراجات الجيدة والسيئة. تم تدريب PrefBERT على مجموعتين من بيانات تقييم الاستجابات ذات الأساليب الطويلة والمتنوعة ونوعية الاستجابات التي تم تصنيفها حسب مقاييس ليكرت (Likert-rated)، ويقدم PrefBERT دعمًا فعالًا لـ GRPO من خلال تقديم ردود فعل مكافآت معنوية أفضل من المقاييس التقليدية مثل ROUGE-L و BERTScore. من خلال تقييمات شاملة تتضمن استخدام LLM-as-a-judge، وتقييمات البشرية، وتحليل نوعي، نوضح أن PrefBERT الذي تم تدريبه على استجابات متعددة الجمل والفقرات يظل موثوقًا عبر مجموعة متنوعة من النصوص الطويلة ويتناسب بشكل جيد مع المكافآت القابلة للتحقق التي يحتاجها GRPO. أكدت التقييمات البشرية أن استخدام PrefBERT كإشارة للمكافأة لتدريب نماذج السياسة يؤدي إلى استجابات أكثر انسجامًا مع تفضيلات الإنسان مقارنة بتلك التي تم تدريبها باستخدام المقاييس التقليدية. شفرتنا متاحة على الرابط: https://github.com/zli12321/long_form_rl.