الإشتراك هو العناية: تدريب لاحق للنموذج اللغوي بكفاءة من خلال مشاركة الخبرة الجماعية في التعلم القائم على التقييم

يمكن لنموذجات اللغة ما بعد التدريب (LMs) التي تُدرَّب باستخدام التعلم بالتعزيز (RL) تحسين قدراتها على التفكير المعقد دون الحاجة إلى التدريب الدقيق المراقب، كما أظهرت نموذج DeepSeek-R1-Zero. ومع ذلك، يتطلب الاستخدام الفعّال للتعلم بالتعزيز في نماذج اللغة توازيًا كبيرًا لتوسيع نطاق الاستدلال، مما يُدخل تحديات تقنية غير بسيطة (مثل التأخير، واستهلاك الذاكرة، وثبات النظام)، إلى جانب تكاليف مالية متزايدة باستمرار. نقدم في هذا العمل خوارزمية "التحسين السياسي للعينة الجماعية" (Swarm sAmpling Policy Optimization - SAPO)، وهي خوارزمية تدريب ما بعد التدريب بالتعلم بالتعزيز بالكامل اللامركزية والمتزامنة. صُممت SAPO للعمل في شبكات لامركزية مكونة من وحدات حوسبة متنوعة، حيث يدير كل عقدة نموذج سياسة(ات) خاص بها، بينما تشارك "مُسارات التقييم" (rollouts) مع العقد الأخرى ضمن الشبكة؛ ولا تتطلب أي افتراضات صريحة بشأن التأخير، أو تجانس النماذج، أو نوعية الأجهزة، ويمكن للعقد العمل بشكل منعزل عند الحاجة. وبذلك، تتجنب الخوارزمية العوائق الشائعة في توسيع نطاق التدريب بالتعزيز ما بعد التدريب، وتتيح (وحتى تشجع) إمكانيات جديدة. من خلال أخذ عينات من مسارات التقييم "المشاركة" عبر الشبكة، تُمكّن من انتشار لحظات "الإدراك المفاجئ" (Aha moments)، مما يُعزز عملية التعلم. في هذه الورقة، نُظهر أن SAPO حققت مكاسب في المكافأة التراكمية تصل إلى 94% في تجارب مُحكَمة. كما نُشارك رؤى مستخلصة من اختبارات أجريت على شبكة مكونة من آلاف العقد، قدمها أعضاء مجتمع Gensyn الذين أجرى خوارزمية SAPO على أنواع متنوعة من الأجهزة والنماذج خلال عرض تجريبي مفتوح المصدر.