HyperAI
منذ 5 أيام

المميزات السياساتية المدربة مسبقًا هي نماذج مكافأة عامة

Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
المميزات السياساتية المدربة مسبقًا هي نماذج مكافأة عامة
الملخص

نقدم رؤية جديدة في نمذجة المكافآت من خلال صياغتها كمميز للسياسات، والذي يقيس الفرق بين سياستين لإنتاج إشارة مكافأة توجه السياسة التدريبية نحو السياسة الهدف ذات السلوكيات المرغوبة. استنادًا إلى هذه الرؤية المفاهيمية، نقترح طريقة تدريب مسبقة قابلة للتوسع تُسمى التعلم التميزي للسياسات (POLAR)، والتي تقوم بتدريب نموذج المكافأة (RM) على تمييز السياسات المتطابقة وتمييز السياسات المختلفة. على عكس طرائق نمذجة المكافآت التقليدية التي تعتمد على التفضيلات المطلقة، فإن POLAR يلتقط الفرق النسبي بين سياسة واحدة وسياسة هدف عشوائية، وهو هدف تحسين عالي المستوى وقابل للتوسع يناسب نمذجة العلاقات الترتيبية العامة. بالاستفادة من نموذج التدريب المسبق لـ POLAR، نقدم سلسلة من نماذج المكافآت بمقاييس معاملات تتراوح من 1.8 مليار إلى 7 مليارات. تظهر النتائج التجريبية أن POLAR يتفوق بشكل كبير على الطرائق التقليدية غير المتدربة مسبقًا، مما يعزز أداء نموذج المكافأة بشكل كبير. على سبيل المثال، يمكن لـ POLAR-7B زيادة دقة التفضيل من 54.8٪ إلى 81.0٪ في مهمات العلوم والتكنولوجيا والهندسة والرياضيات (STEM) ومن 57.9٪ إلى 85.5٪ في مهمات الكتابة الإبداعية مقارنة بالأسس الحالية الأفضل (SOTA). كما أظهر POLAR قدرات تعميم متينة في تعليم التعزيز باستخدام التحسين الدقيق بالمكافآت (RFT)، مما يقدم إشارات مكافأة موثوقة ويحسن بشكل ملحوظ أداء السياسة--بزيادة LLaMa3.1-8B من معدل 47.36٪ إلى 56.33٪ و Qwen2.5-32B من 64.49٪ إلى 70.47٪ في 20 مقاييس مختلفة. بالإضافة إلى ذلك، كشفت التجارب المتعلقة بالتوسع عن علاقة واضحة بين الحساب والأداء تتبع قانون القوة، مدعومة بمعاملات ارتباط خطية تقترب من 0.99. يشير الأداء الرائع والقدرة القوية على التعميم وخواص التوسع إلى أن POLAR هو اتجاه واعد لتطوير نماذج مكافآت عامة وقوية.请注意,这里的翻译已经尽量符合您的要求,包括内容准确性、表达流畅性、表述正式性和忠于原文。如果您有任何进一步的要求或需要调整的地方,请随时告知。