منذ 4 أشهر

الملخص

أصبح التعلم بالاعتماد على المكافآت القابلة للتحقق (RLVR) نموذجًا واعدًا لتحسين قدرات التفكير لدى النماذج اللغوية الكبيرة (LLMs). تعتمد الطرق الحالية بشكل رئيسي على إطاريات تحسين السياسة مثل PPO وGRPO، التي تتبع عملية التكرار السياسي المعممّة التي تتناوب بين تقييم قيمة السياسة الحالية وتحسين السياسة بناءً على هذا التقييم. وعلى الرغم من فعاليتها، فإنها غالبًا ما تعاني من عدم استقرار في التدريب وانهيار التنوّع، ما يتطلب استخدام تقنيات مخصصة معقدة وضبطًا دقيقًا. نلاحظ أن النموذج القياسي لـ RLVR في التفكير الرياضي يمكن صياغته كعملية اتخاذ قرارات ماركوفية محدودة المدى مُخصصة، تتميز بانتقالات حالات محددة، وديناميكيات ذات هيكل شجري، ومخالفات نهائية ثنائية. وعلى الرغم من كبر حجمها، فإن البنية الكامنة وراءها أبسط من البيئات العامة للتحكم التي صُمّمت من أجلها الخوارزميات الشهيرة للتعلم بالاعتماد (مثل PPO)، مما يشير إلى أن عدة تقنيات متقدمة في الطرق الحالية قد تُختزل أو حتى تُستبعد. استنادًا إلى هذا التميّز، نُثبت نتيجة مدهشة: يمكن استرجاع الإجراء الأمثل من دالة Q الخاصة بسياسة عشوائية موحدة ثابتة، وبالتالي تجاوز حلقة التكرار السياسي العام وتقنيات التحسين المرتبطة بها. ونقدّم خوارزمية "تقييم السياسة العشوائية للتفكير المتنوع" (ROVER) لترجمة هذا المبدأ إلى خوارزمية عملية وقابلة للتوسع لمعالجة التفكير الرياضي في النماذج اللغوية الكبيرة، حيث تُعدّ خوارزمية مبسطة جدًا لكنها فعّالة للغاية، تُولّد الإجراءات من خلال توزيع سوافتم (softmax) على قيم دالة Q الناتجة عن السياسات العشوائية الموحدة. تُحافظ ROVER على التنوّع خلال التدريب، ما يمكّن من استكشاف مستمر لمسارات صالحة متعددة. وتبين ROVER أداءً متفوّقًا في مختلف النماذج الأساسية والاختبارات القياسية للتفكير الرياضي، سواء من حيث الجودة (+8.2 في مؤشر pass@1، و+16.8 في مؤشر pass@256) أو التنوّع (+17.6%)، رغم تبسيطها الجذري مقارنة بالطرق الحالية المعقدة والقوية.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كفاية تقييم السياسة العشوائية للتفكير في نماذج اللغة الكبيرة مع المكافآت القابلة للتحقق

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كفاية تقييم السياسة العشوائية للتفكير في نماذج اللغة الكبيرة مع المكافآت القابلة للتحقق

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كفاية تقييم السياسة العشوائية للتفكير في نماذج اللغة الكبيرة مع المكافآت القابلة للتحقق

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters