Command Palette
Search for a command to run...
ديب سيرش: التغلب على عقبة التعلم المعزز مع مكافآت قابلة للتحقق من خلال البحث الشجري مونت كارلو
Fang Wu Weihao Xuan Heli Qi Ximing Lu Aaron Tu Li Erran Li Yejin ChoiRetry

الملخص
على الرغم من أن RLVR أصبح عنصراً أساسياً في تطوير مهارات الاستدلال المتقدمة في النماذج اللغوية الكبيرة (LLMs)، فإن الدراسات الحديثة سجلت حالات توقف في التدريب تظهر بعد آلاف خطوات التحسين، مما يدل على انخفاض ملحوظ في تحسن الأداء رغم الزيادة في الاستثمار الحسابي. وتنبع هذه القيود من أنماط الاستكشاف المحدودة المتأصلة في الممارسات الحالية لـ RLVR، حيث تعتمد النماذج على محاكاة محدودة (rollouts) تُفشل في اكتشاف المسارات الحاسمة للتفكير، ولا تضمن تغطية منهجية لفضاء الحلول. نقدّم "DeepSearch"، إطاراً يدمج خوارزمية بحث شجرة مونت كارلو مباشرة في عملية تدريب RLVR. على عكس الطرق الحالية التي تستخدم بحث الشجرة فقط في مرحلة الاستنتاج، يُدمج DeepSearch بحثاً منظماً في دورة التدريب، ما يمكّن من استكشاف منهجي وتوزيع دقيق للمسؤولية على مراحل الاستدلال. من خلال الاستكشاف أثناء التدريب، يعالج DeepSearch العائق الجذري الناتج عن استكشاف غير كافٍ، والذي يؤدي إلى تراجع في تحسين الأداء مع زيادة عدد خطوات التدريب. تتمثل مساهماتنا في: (1) استراتيجية اختيار حدود عالمية تُولّي أولوية للعقد الواعدة عبر شجرة البحث، (2) اختيار موجه بعامل الانتروبيا لتحديد المسارات الواثقة لغرض الإشراف، و(3) تدريب ذا ذاكرة إعادة تجربة تكيفية مع تخزين الحلول لتعزيز الكفاءة. أظهرت التجارب على معايير الاستدلال الرياضي أن DeepSearch حقق دقة متوسطة بلغت 62.95٪، وحقق حالة جديدة من أفضل الأداء في النماذج ذات 1.5 مليار معامل (1.5B) للتفكير، وباستخدام 5.7 أضعاف أقل من ساعات GPU مقارنةً بالطرق المطولة للتدريب. تُبرز هذه النتائج أهمية الاستكشاف الاستراتيجي على التوسع القسري، وتكشف عن الإمكانات الكبيرة للابتكار الخوارزمي في تطوير منهجيات RLVR. يُشكّل DeepSearch اتجاهاً جديداً لتوسيع القدرات الاستدلالية من خلال البحث المنهجي، بدلًا من الاعتماد على الحسابات المطولة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.