HyperAIHyperAI

Command Palette

Search for a command to run...

ألفاماث أونليرو: إشراف على العملية دون عملية

Guoxin Chen Minpeng Liao Chengxi Li Kai Fan

الملخص

رغم التقدم الأخير في نماذج اللغة الكبيرة (LLMs) الذي عزز بشكل كبير أداؤها في مهام متعددة، تواجه هذه النماذج ما يزال صعوبات في التفكير التحليلي المعقد والرمزي متعدد الخطوات، خصوصًا في التفكير الرياضي. ولتعزيز قدرات LLMs في التفكير الرياضي، تتركز معظم الجهود الحالية على الاعتماد على خبراء متخصصين أو على GPT-4 للحصول على بيانات مُعلّمة بعملية مفصلة عالية الجودة، وهي عملية باهظة التكلفة وشاقة من حيث المجهود البشري. في دراستنا، نقترح إطارًا مبتكرًا يُسمى AlphaMath، يتجاوز الحاجة إلى التسميات العملية (من البشر أو من نماذج GPT)، وذلك من خلال الاستفادة من خوارزمية بحث شجرة مونت كارلو (MCTS). يركّز هذا الإطار على استغلال الإمكانات الكامنة في نموذج لغة مُدرّب مسبقًا، بهدف تمكينه من تحسين قدرته على التفكير الرياضي بشكل ذاتي. وبشكل محدد، ندمج نموذج قيمة مع نموذج اللغة، بحيث يتم توليد إشارات تدريب عملية وتقييم على مستوى كل خطوة تلقائيًا ضمن إطار MCTS. علاوةً على ذلك، نقترح استراتيجية استدلال فعّالة تُسمى "البحث الشعاعي على مستوى الخطوات"، حيث يتم تصميم نموذج القيمة لمساعدة نموذج السياسة (أي نموذج اللغة الكبيرة) على استكشاف مسارات تفكير أكثر فعالية، بدلًا من الاعتماد حصريًا على الاحتمالات السابقة. أظهرت النتائج التجريبية على مجموعات بيانات داخل المجال وخارج المجال أن إطار AlphaMath، حتى دون استخدام GPT-4 أو أي تسميات عملية مُعدّة يدويًا، يحقق نتائج مماثلة أو أفضل من الطرق الأفضل في المجال (state-of-the-art) السابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ألفاماث أونليرو: إشراف على العملية دون عملية | مستندات | HyperAI