الاستدلال أم الحفظ؟ نتائج غير موثوقة للتعلم التعزيزي بسبب تلوث البيانات

قد كانت قدرات الاستدلال في نماذج اللغات الكبيرة (LLMs) محورًا للبحث لفترة طويلة. وقد أدى العمل الحديث إلى تعزيز هذه القدرات باستخدام التعلم التعزيزي (RL)، حيث تدعي العديد من الطرق الجديدة تحقيق تحسينات كبيرة مع إشراف خارجي محدود أو بدونه. بشكل مفاجئ، تقترح بعض الدراسات أن الإشارات المكافأة العشوائية أو الخاطئة يمكن أن تحسن أداء الاستدلال. ومع ذلك، فإن معظم هذه الاختراقات يتم الإبلاغ عنها في عائلة النماذج Qwen2.5 وتقييمها على مقاييس مشهورة مثل MATH-500 وAMC وAIME، بينما فشلت في تحقيق مكاسب مماثلة على نماذج أخرى مثل Llama، مما يستدعي المزيد من البحث. تظهر تحليلاتنا أن Qwen2.5 يحقق أداءً قويًا في الاستدلال الرياضي، ولكن تدريبه على كوربوس الويب الكبير يجعله عرضة للتلوث البياناتي في المقاييس الشائعة. نتيجة لذلك، قد تكون النتائج المستخرجة من هذه المقاييس غير موثوقة. لمعالجة هذا الأمر، نقدم جهازًا منتجًا يولد مشاكل حسابية اصطناعية تمامًا بطول وصعوبة متغيرين، مما ينتج عنه مجموعة بيانات نقية نطلق عليها اسم RandomCalculation. باستخدام هذه المجموعات البيانات الخالية من التسرب، نوضح أن الإشارات المكافأة الدقيقة فقط هي التي تحسن الأداء باستمرار، بينما لا تؤثر الإشارات الضوضائية أو الخاطئة. ندعو إلى تقييم طرق التعلم التعزيزي على مقاييس خالية من التلوث وفي نطاق واسع من عائلات النماذج لضمان استنتاج استنتاجات جديرة بالثقة.