Command Palette
Search for a command to run...
كفاية تقييم السياسة العشوائية للتفكير في نماذج اللغة الكبيرة مع المكافآت القابلة للتحقق
Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

الملخص
أصبح التعلم بالاعتماد على المكافآت القابلة للتحقق (RLVR) نموذجًا واعدًا لتحسين قدرات التفكير لدى النماذج اللغوية الكبيرة (LLMs). تعتمد الطرق الحالية بشكل رئيسي على إطاريات تحسين السياسة مثل PPO وGRPO، التي تتبع عملية التكرار السياسي المعممّة التي تتناوب بين تقييم قيمة السياسة الحالية وتحسين السياسة بناءً على هذا التقييم. وعلى الرغم من فعاليتها، فإنها غالبًا ما تعاني من عدم استقرار في التدريب وانهيار التنوّع، ما يتطلب استخدام تقنيات مخصصة معقدة وضبطًا دقيقًا. نلاحظ أن النموذج القياسي لـ RLVR في التفكير الرياضي يمكن صياغته كعملية اتخاذ قرارات ماركوفية محدودة المدى مُخصصة، تتميز بانتقالات حالات محددة، وديناميكيات ذات هيكل شجري، ومخالفات نهائية ثنائية. وعلى الرغم من كبر حجمها، فإن البنية الكامنة وراءها أبسط من البيئات العامة للتحكم التي صُمّمت من أجلها الخوارزميات الشهيرة للتعلم بالاعتماد (مثل PPO)، مما يشير إلى أن عدة تقنيات متقدمة في الطرق الحالية قد تُختزل أو حتى تُستبعد. استنادًا إلى هذا التميّز، نُثبت نتيجة مدهشة: يمكن استرجاع الإجراء الأمثل من دالة Q الخاصة بسياسة عشوائية موحدة ثابتة، وبالتالي تجاوز حلقة التكرار السياسي العام وتقنيات التحسين المرتبطة بها. ونقدّم خوارزمية "تقييم السياسة العشوائية للتفكير المتنوع" (ROVER) لترجمة هذا المبدأ إلى خوارزمية عملية وقابلة للتوسع لمعالجة التفكير الرياضي في النماذج اللغوية الكبيرة، حيث تُعدّ خوارزمية مبسطة جدًا لكنها فعّالة للغاية، تُولّد الإجراءات من خلال توزيع سوافتم (softmax) على قيم دالة Q الناتجة عن السياسات العشوائية الموحدة. تُحافظ ROVER على التنوّع خلال التدريب، ما يمكّن من استكشاف مستمر لمسارات صالحة متعددة. وتبين ROVER أداءً متفوّقًا في مختلف النماذج الأساسية والاختبارات القياسية للتفكير الرياضي، سواء من حيث الجودة (+8.2 في مؤشر pass@1، و+16.8 في مؤشر pass@256) أو التنوّع (+17.6%)، رغم تبسيطها الجذري مقارنة بالطرق الحالية المعقدة والقوية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.