Command Palette
Search for a command to run...
TaTToo: أداة مبنية على التفكير PRM للتوسع في وقت الاختبار في التفكير الجدولي
Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

الملخص
أصبحت نماذج المكافأة العملية (Process Reward Models - PRMs) مؤخرًا إطارًا قويًا لتعزيز قدرات التفكير في النماذج الكبيرة للتفكير (Large Reasoning Models - LRMs)، خاصة في سياق التوسع أثناء الاختبار (Test-Time Scaling - TTS). ومع ذلك، ما زال يُنظر إلى إمكانات هذه النماذج في الإشراف على النماذج الكبيرة للتفكير في مجالات التفكير الجدولي (الجدولية) على نحو محدود. من خلال تحليلات تجريبية مفصلة، نحدد أن النماذج الحالية من PRMs، رغم انتشار استخدامها في الإشراف على خطوات التفكير النصية فقط، تواجه صعوبات في التعامل مع العمليات الخاصة بالجداول مثل استرجاع الأجزاء الفرعية من الجداول أو التفاعل مع هيكل الجدول، ما يؤدي إلى عوائق أداء حرجة. لمعالجة هذه القيود، نقترح إطارًا جديدًا يُدعى TaTToo، وهو إطار مبني على الجداول (table-grounded PRM) يمتاز بـ (i) التفكير بشكل صريح على خطوات التفكير الجدولي، و(ii) دمج التحقق القائم على الأدوات لتوفير إشراف دقيق على المكافآت. وبشكل محدد، نصمم أولًا خط أنابيب قابل للتوسع لجمع البيانات، يُنشئ أكثر من 60 ألف ملاحظة عالية الجودة على مستوى الخطوات من خلال دمج تبريرات التحقق من الجداول مع تنفيذات قائمة على الأدوات. وباستناد إلى البيانات المجمعة، ندرّب TaTToo باستخدام منهجية ثنائية المراحل: تدريب مُعدّل مُراقب في المرحلة الأولى (cold-start) لاستيعاب أنماط التفكير المتعلقة باستخدام الأدوات، تليها عملية تعلم التقويم (reinforcement learning) مع تشكيل مكافأة مبنية على الأدوات لتوحيد نموذجنا مع عملية التحقق القائمة على الجداول. ونقدّم تقييمًا شاملاً لتحسين السياسة الناتج عن تصميمنا الجديد لنموذج PRM. وتشمل النتائج تحسينًا بنسبة 30.9% في الأداء أثناء الاستنتاج على 5 معايير صعبة في التفكير الجدولي، تشمل التفكير العددي، التحقق من الحقائق، وتحليل البيانات، حيث يتفوق TaTToo على نماذج مرجعية قوية مثل Qwen-2.5-Math-PRM-72B، رغم امتلاكه فقط 8 مليار معلمة، ويُظهر قدرة قوية على التعميم عبر استراتيجيات متنوعة للتوسع أثناء الاختبار (TTS).
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.