HyperAIHyperAI
منذ 3 أشهر

ألفاماث أونليرو: إشراف على العملية دون عملية

Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan
ألفاماث أونليرو: إشراف على العملية دون عملية
الملخص

رغم التقدم الأخير في نماذج اللغة الكبيرة (LLMs) الذي عزز بشكل كبير أداؤها في مهام متعددة، تواجه هذه النماذج ما يزال صعوبات في التفكير التحليلي المعقد والرمزي متعدد الخطوات، خصوصًا في التفكير الرياضي. ولتعزيز قدرات LLMs في التفكير الرياضي، تتركز معظم الجهود الحالية على الاعتماد على خبراء متخصصين أو على GPT-4 للحصول على بيانات مُعلّمة بعملية مفصلة عالية الجودة، وهي عملية باهظة التكلفة وشاقة من حيث المجهود البشري. في دراستنا، نقترح إطارًا مبتكرًا يُسمى AlphaMath، يتجاوز الحاجة إلى التسميات العملية (من البشر أو من نماذج GPT)، وذلك من خلال الاستفادة من خوارزمية بحث شجرة مونت كارلو (MCTS). يركّز هذا الإطار على استغلال الإمكانات الكامنة في نموذج لغة مُدرّب مسبقًا، بهدف تمكينه من تحسين قدرته على التفكير الرياضي بشكل ذاتي. وبشكل محدد، ندمج نموذج قيمة مع نموذج اللغة، بحيث يتم توليد إشارات تدريب عملية وتقييم على مستوى كل خطوة تلقائيًا ضمن إطار MCTS. علاوةً على ذلك، نقترح استراتيجية استدلال فعّالة تُسمى "البحث الشعاعي على مستوى الخطوات"، حيث يتم تصميم نموذج القيمة لمساعدة نموذج السياسة (أي نموذج اللغة الكبيرة) على استكشاف مسارات تفكير أكثر فعالية، بدلًا من الاعتماد حصريًا على الاحتمالات السابقة. أظهرت النتائج التجريبية على مجموعات بيانات داخل المجال وخارج المجال أن إطار AlphaMath، حتى دون استخدام GPT-4 أو أي تسميات عملية مُعدّة يدويًا، يحقق نتائج مماثلة أو أفضل من الطرق الأفضل في المجال (state-of-the-art) السابقة.