Command Palette
Search for a command to run...
التعلم المعزز من خلال التباعد الذاتي
التعلم المعزز من خلال التباعد الذاتي
الملخص
تُدرَّب النماذج اللغوية الكبيرة بشكل متزايد باستخدام التعلم بالتعزيز في مجالات قابلة للتحقق مثل البرمجة والرياضيات. ومع ذلك، فإن الطرق الحالية للتعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) تتعلم فقط من مكافأة ناتجة عن محاولة واحدة، مما يخلق عقبة خطيرة في توزيع المسؤولية (credit-assignment). في الواقع، توفر العديد من البيئات القابلة للتحقق ملاحظات نصية غنية، مثل أخطاء التشغيل أو تقييمات المحكمين، التي تفسر سبب فشل المحاولة. نُصِف هذا السياق على أنه تعلم بالتعزيز مع ملاحظات غنية، ونُقدِّم طريقة "تحسين السياسة بالاستخلاص الذاتي" (SDPO)، التي تحوّل الملاحظات المُحَوَّلة إلى رموز (tokenized feedback) إلى إشارة تعلم كثيفة دون الحاجة إلى معلم خارجي أو نموذج مكافأة صريح. تُعامل SDPO النموذج الحالي المشروط بالملاحظات كمعلم ذاتي، وتمتص توقعاته التالية للرمز (next-token predictions) المُستندة إلى الملاحظات مرة أخرى في السياسة. وبهذه الطريقة، تستفيد SDPO من قدرة النموذج على التعرف رجعيًا على أخطائه داخل السياق. وتفوق SDPO، عبر مجموعة متنوعة من المهام في التفكير العلمي، واستخدام الأدوات، والبرمجة التنافسية على منصة LiveCodeBench v6، النماذج الأساسية للـ RLVR من حيث كفاءة العينات والدقة النهائية. وبشكل ملحوظ، تتفوق SDPO أيضًا على النماذج الأساسية في بيئات RLVR القياسية التي تُرجع فقط ملاحظات قياسية (scalar feedback)، وذلك باستخدام مسارات ناجحة كملاحظات ضمنية للمحاولات الفاشلة. وأخيرًا، عند تطبيق SDPO على أسئلة فردية في وقت الاختبار، فإنها تسرع من عملية الاكتشاف في المهام الصعبة ذات المكافأة الثنائية، حيث تحقق نفس احتمالية الاكتشاف التي تُحققها طريقة "أفضل من k" (best-of-k sampling) أو المحادثات متعددة الدورات، ولكن بثلاثة أضعاف أقل من المحاولات.