HyperAIHyperAI
منذ يوم واحد

ما وراء Pass@1: اللعب الذاتي مع توليد المشكلات المتغيرة يُحافظ على RLVR

Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen
ما وراء Pass@1: اللعب الذاتي مع توليد المشكلات المتغيرة يُحافظ على RLVR
الملخص

أصبح التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) مؤخرًا نموذجًا رئيسيًا في تدريب نماذج اللغة الكبيرة (LLMs) بعد التدريب، خاصةً في المهام المعقدة المتعلقة بالاستنتاج. ومع ذلك، أظهر التدريب القياسي لـ RLVR تحسين أداء "Pass@1" على حساب إنتروبيا السياسة، ما يؤدي إلى تقليل تنوع الإنتاج ويتسبب في تقييد أداء "Pass@k"، والذي يُعدّ عادةً الحد الأقصى لقدرات الاستنتاج لدى نماذج لغة كبيرة. في هذا البحث، نقوم بتحليل منهجي لتنوع إنتاج السياسة من منظور مشكلات التدريب، ونجد أن تعزيز وتحديث مشكلات التدريب يساعد في تخفيف انهيار الإنتروبيا أثناء التدريب. استنادًا إلى هذه الملاحظات، نقترح استراتيجية تفاعل ذاتي على الإنترنت مع توليد متنوع للمشكلات (SvS) لتدريب RLVR، والتي تستخدم الحلول الصحيحة التي تنتجها السياسة لتوليد مشكلات متنوعة مع الحفاظ على صحة الإجابات المرجعية دون تغيير مقارنة بالإجابات الأصلية. تُعد هذه الاستراتيجية ذات تحسين ذاتي فعّالة في الحفاظ على إنتروبيا السياسة أثناء التدريب، وتحسّن بشكل كبير أداء "Pass@k" مقارنة بالتدريب القياسي لـ RLVR، مع الحفاظ على تحسينات مستمرة، وتُحقّق مكاسب مطلقة بنسبة 18.3% و22.8% في أداء "Pass@32" على معايير AIME24 وAIME25 من المستوى التنافسي. وتوحي التجارب المطبقة على 12 معيارًا للاستنتاج، تشمل نماذج بمقاييس تتراوح بين 3B و32B، بوجود عامية وقوة متميزة لاستراتيجية SvS.