HyperAI
منذ 2 أيام

SPIRAL: اللعب الذاتي في الألعاب ذات المجموع الصفر يشجع على التفكير من خلال التعلم التعزيزي متعدد الوكلاء ومتعدد الدورات

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
SPIRAL: اللعب الذاتي في الألعاب ذات المجموع الصفر يشجع على التفكير من خلال التعلم التعزيزي متعدد الوكلاء ومتعدد الدورات
الملخص

التطورات الحديثة في تعلم التعزيز أظهرت أن نماذج اللغة يمكن أن تطور قدرات استدلال معقدة من خلال التدريب على مهام ذات مكافآت قابلة للتحقق، ولكن هذه النهج تعتمد على أزواج مشكلة-إجابة تم جمعها من قبل البشر وتصميم المكافآت الخاص بالمنطقة. نقدم SPIRAL، إطارًا للعب الذاتي حيث تتعلم النماذج من خلال اللعب في ألعاب متعددة الأدوار ومجموعتها صفر ضد إصدارات مستمرة منها تتحسن باستمرار، مما يلغي الحاجة إلى الإشراف البشري. من خلال العاب الذاتية، يولد SPIRAL برنامجًا تعليميًا لا نهائيًا يتضمن مشاكل تزداد صعوبتها بشكل تدريجي حيث يجب على النماذج التكيف باستمرار مع الخصوم الأقوى. لتمكين هذا التدريب الذاتي على نطاق واسع، نقوم بتنفيذ نظام تعلم تعزيز متعدد الأدوار ومتكامل عبر الإنترنت لموديلات اللغات الكبيرة ونقترح تقدير الفائدة المشروط بالدور (RAE) لاستقرار التدريب المتعدد الأطراف. باستخدام SPIRAL، يؤدي اللعب الذاتي في الألعاب التي مجموعتها صفر إلى قدرات استدلالية قابلة للنقل بشكل واسع. فعلى سبيل المثال، التدريب على لعبة البوكر كوهن فقط يؤدي إلى تحسين بنسبة 8.6٪ في الرياضيات و8.4٪ في الاستدلال العام، ويتفوق على SFT في 25,000 مسار لعبة خبراء. يكشف التحليل أن هذا النقل يحدث من خلال ثلاثة أنماط معرفية: التحليل النظامي (systematic decomposition)، حساب القيمة المتوقعة (expected value calculation)، والتحليل حالة بحالة (case-by-case analysis). يعزز التدريب على عدة ألعاب (التيك تاك تو، البوكر كوهن، المفاوضة البسيطة) الأداء أكثر فأكثر حيث تقوم كل لعبة بتطوير قوى استدلالية مختلفة. يمكن أن يؤدي تطبيق SPIRAL على نموذج استدلال قوي (DeepSeek-R1-Distill-Qwen-7B) إلى تحسن متوسط بنسبة 2.0٪. هذه النتائج تثبت أن الألعاب التي مجموعتها صفر تنمي طبيعياً قدرات استدلالية قابلة للنقل، مما يسلط الضوء على اتجاه واعد لتطوير الاستدلال المستقل.