Command Palette
Search for a command to run...

الملخص
تُعد الفجوة المتزايدة بين التوسع الأسي في الموارد الحسابية وبين النمو المحدود في بيانات النص عالي الجودة الآن عائقًا أمام النماذج الكبيرة للغة (LLMs) في الاعتماد على النماذج التقليدية للتوسع. وللتغلب على هذا التحدي، نقدم نموذج التعلم المعزز على بيانات التدريب المسبق (RLPT)، وهو نمط جديد للتوسع أثناء مرحلة التدريب بهدف تحسين أداء النماذج الكبيرة للغة. على عكس النماذج السابقة التي تعتمد على التعلم الخاضع للإشراف كوسيلة رئيسية للتوسع، يتيح RLPT للسياسة (Policy) استكشاف مسارات ذات معنى تلقائيًا من خلال بيانات التدريب المسبق، وتحسين قدرتها عبر التعلم المعزز (RL). في حين تعتمد الاستراتيجيات الحالية للتعلم المعزز، مثل التعلم المعزز من ملاحظات البشر (RLHF) والتعلم المعزز ب rewarded قابلة للتحقق (RLVR)، على التصنيف البشري لبناء إشارات المكافأة، فإن RLPT يُزيل هذا الاعتماد من خلال استخلاص إشارات المكافأة مباشرة من بيانات التدريب المسبق. وتحديدًا، يعتمد RLPT على هدف استنتاج التسلسل التالي، حيث يتم مكافأة السياسة على التنبؤ بدقة بالمقاطع النصية اللاحقة استنادًا إلى السياق السابق. وتسمح هذه الصيغة بتوسيع نطاق التعلم المعزز على بيانات التدريب المسبق، مما يشجع على استكشاف مسارات أكثر غنىً عبر نطاقات سياقية أوسع، وبالتالي تعزيز مهارات الاستدلال القابلة للتعميم. وقد أكدت تجارب واسعة النطاق على معايير تحليل عامة ورياضية عبر عدة نماذج فعالية RLPT. على سبيل المثال، عند تطبيقه على النموذج Qwen3-4B-Base، حقق RLPT تحسنًا مطلقًا بنسبة 3.0 و5.1 و8.1 و6.0 و6.6 و5.3 على معايير MMLU وMMLU-Pro وGPQA-Diamond وKOR-Bench وAIME24 وAIME25 على التوالي. كما تُظهر النتائج سلوك توسع مواتٍ، ما يوحي بفرص كبيرة للتحسن المستمر مع زيادة الموارد الحسابية. علاوةً على ذلك، يُعد RLPT أساسًا قويًا يمتد به حدود قدرة النماذج الكبيرة للغة على الاستدلال، ويُحسّن من أداء RLVR.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.