HyperAIHyperAI

Command Palette

Search for a command to run...

دعونا نتحقق خطوة بخطوة

Hunter Lightman Vineet Kosaraju Yura Burda Harri Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever Karl Cobbe

الملخص

في السنوات الأخيرة، تحسّنت قدرة النماذج اللغوية الكبيرة بشكل كبير على أداء الاستدلال المعقد متعدد الخطوات. ومع ذلك، لا تزال النماذج الرائدة تُخطئ من وقت لآخر في التفكير المنطقي. لتدريب نماذج أكثر موثوقية، يمكننا الاعتماد إما على المراقبة الناتجة، التي تُقدّم ملاحظات حول النتيجة النهائية، أو على المراقبة العملية، التي تُقدّم ملاحظات لكل خطوة استدلالية وسيطة. وبما أن تدريب نماذج موثوقة أمر بالغ الأهمية، وبما أن تكلفة الملاحظات البشرية عالية، فمن الضروري مقارنة هاتين الطريقتين بعناية. وقد بدأت أبحاث حديثة بالفعل هذه المقارنة، لكن هناك العديد من الأسئلة التي ما زالت معلقة. نُجري دراسة خاصة بنا، ونجد أن المراقبة العملية تتفوّق بشكل كبير على المراقبة الناتجة عند تدريب النماذج على حل مسائل من مجموعة بيانات MATH الصعبة. حيث تمكّن النموذج المُدرّب باستخدام المراقبة العملية من حل 78% من المسائل في عينة تمثيلية من مجموعة اختبار MATH. علاوةً على ذلك، نُظهر أن التعلّم النشط يُحسّن بشكل كبير كفاءة المراقبة العملية. ولدعم الأبحاث ذات الصلة، نُطلق أيضًا PRM800K، وهي المجموعة الكاملة من التسميات البشرية على مستوى الخطوات التي تضم 800,000 ملاحظة، المستخدمة لتدريب نموذج المكافأة الأفضل لدينا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp