منذ 8 أشهر

الملخص

تقييم التوليد المفتوح الطويل هو تحدي بسبب صعوبة تعريف ما يفصل بوضوح بين الإخراجات الجيدة والسيئة. تفتقد الطرق الحالية جوانب رئيسية مثل التجانس، الأسلوب، أو الصلة، أو تكون متحيزة بسبب بيانات التدريب الأولي، مما يجعل تقييم التوليد المفتوح الطويل مشكلة غير مستكشفة بشكل كافٍ. لمعالجة هذا النقص، نقترح PrefBERT، وهو نموذج تقييم لدعم التوليد المفتوح الطويل في GRPO وترشيد تدريبه باستخدام مكافآت متميزة للإخراجات الجيدة والسيئة. تم تدريب PrefBERT على مجموعتين من بيانات تقييم الاستجابات ذات الأساليب الطويلة والمتنوعة ونوعية الاستجابات التي تم تصنيفها حسب مقاييس ليكرت (Likert-rated)، ويقدم PrefBERT دعمًا فعالًا لـ GRPO من خلال تقديم ردود فعل مكافآت معنوية أفضل من المقاييس التقليدية مثل ROUGE-L و BERTScore. من خلال تقييمات شاملة تتضمن استخدام LLM-as-a-judge، وتقييمات البشرية، وتحليل نوعي، نوضح أن PrefBERT الذي تم تدريبه على استجابات متعددة الجمل والفقرات يظل موثوقًا عبر مجموعة متنوعة من النصوص الطويلة ويتناسب بشكل جيد مع المكافآت القابلة للتحقق التي يحتاجها GRPO. أكدت التقييمات البشرية أن استخدام PrefBERT كإشارة للمكافأة لتدريب نماذج السياسة يؤدي إلى استجابات أكثر انسجامًا مع تفضيلات الإنسان مقارنة بتلك التي تم تدريبها باستخدام المقاييس التقليدية. شفرتنا متاحة على الرابط: https://github.com/zli12321/long_form_rl.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters