الملخص

نقدم رؤية جديدة في نمذجة المكافآت من خلال صياغتها كمميز للسياسات، والذي يقيس الفرق بين سياستين لإنتاج إشارة مكافأة توجه السياسة التدريبية نحو السياسة الهدف ذات السلوكيات المرغوبة. استنادًا إلى هذه الرؤية المفاهيمية، نقترح طريقة تدريب مسبقة قابلة للتوسع تُسمى التعلم التميزي للسياسات (POLAR)، والتي تقوم بتدريب نموذج المكافأة (RM) على تمييز السياسات المتطابقة وتمييز السياسات المختلفة. على عكس طرائق نمذجة المكافآت التقليدية التي تعتمد على التفضيلات المطلقة، فإن POLAR يلتقط الفرق النسبي بين سياسة واحدة وسياسة هدف عشوائية، وهو هدف تحسين عالي المستوى وقابل للتوسع يناسب نمذجة العلاقات الترتيبية العامة. بالاستفادة من نموذج التدريب المسبق لـ POLAR، نقدم سلسلة من نماذج المكافآت بمقاييس معاملات تتراوح من 1.8 مليار إلى 7 مليارات. تظهر النتائج التجريبية أن POLAR يتفوق بشكل كبير على الطرائق التقليدية غير المتدربة مسبقًا، مما يعزز أداء نموذج المكافأة بشكل كبير. على سبيل المثال، يمكن لـ POLAR-7B زيادة دقة التفضيل من 54.8٪ إلى 81.0٪ في مهمات العلوم والتكنولوجيا والهندسة والرياضيات (STEM) ومن 57.9٪ إلى 85.5٪ في مهمات الكتابة الإبداعية مقارنة بالأسس الحالية الأفضل (SOTA). كما أظهر POLAR قدرات تعميم متينة في تعليم التعزيز باستخدام التحسين الدقيق بالمكافآت (RFT)، مما يقدم إشارات مكافأة موثوقة ويحسن بشكل ملحوظ أداء السياسة--بزيادة LLaMa3.1-8B من معدل 47.36٪ إلى 56.33٪ و Qwen2.5-32B من 64.49٪ إلى 70.47٪ في 20 مقاييس مختلفة. بالإضافة إلى ذلك، كشفت التجارب المتعلقة بالتوسع عن علاقة واضحة بين الحساب والأداء تتبع قانون القوة، مدعومة بمعاملات ارتباط خطية تقترب من 0.99. يشير الأداء الرائع والقدرة القوية على التعميم وخواص التوسع إلى أن POLAR هو اتجاه واعد لتطوير نماذج مكافآت عامة وقوية.请注意，这里的翻译已经尽量符合您的要求，包括内容准确性、表达流畅性、表述正式性和忠于原文。如果您有任何进一步的要求或需要调整的地方，请随时告知。

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

المميزات السياساتية المدربة مسبقًا هي نماذج مكافأة عامة

Shihan Dou Shichun Liu Yuming Yang Yicheng Zou Yunhua Zhou Shuhao Xing Chenhao Huang Qiming Ge Demin Song Haijun Lv12 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المميزات السياساتية المدربة مسبقًا هي نماذج مكافأة عامة

Shihan Dou Shichun Liu Yuming Yang Yicheng Zou Yunhua Zhou Shuhao Xing Chenhao Huang Qiming Ge Demin Song Haijun Lv12 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المميزات السياساتية المدربة مسبقًا هي نماذج مكافأة عامة

Shihan Dou Shichun Liu Yuming Yang Yicheng Zou Yunhua Zhou Shuhao Xing Chenhao Huang Qiming Ge Demin Song Haijun Lv12 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shihan Dou Shichun Liu Yuming Yang Yicheng Zou Yunhua Zhou Shuhao Xing Chenhao Huang Qiming Ge Demin Song Haijun Lv

Shihan Dou Shichun Liu Yuming Yang Yicheng Zou Yunhua Zhou Shuhao Xing Chenhao Huang Qiming Ge Demin Song Haijun Lv

Shihan Dou Shichun Liu Yuming Yang Yicheng Zou Yunhua Zhou Shuhao Xing Chenhao Huang Qiming Ge Demin Song Haijun Lv