منذ 2 أشهر

يشجع DeepSeek-R1 على التفكير في النماذج اللغوية الكبيرة من خلال التعلم المعزز

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

الملخص

الاستنتاج العام يُعدّ تحديًا قديمًا وصعبًا في مجال الذكاء الاصطناعي. وقد حققت التطورات الحديثة، مثل النماذج اللغوية الكبيرة (LLMs)1,2 وتقنيات التوجيه بالسياق المتسلسل (Chain-of-Thought - CoT)3، تقدمًا كبيرًا في المهام الأساسية المتعلقة بالاستنتاج. ومع ذلك، يعتمد هذا النجاح بشكل كبير على وجود أمثلة مُعلَّمة مسبقًا من قبل البشر، كما أن قدرات النماذج ما زالت غير كافية لحل المشكلات الأكثر تعقيدًا. في هذا العمل، نُظهر أن قدرات الاستنتاج لدى النماذج اللغوية الكبيرة يمكن تحفيزها من خلال التعلم المعزز (Reinforcement Learning - RL) بشكل صرف، مما يُلغِي الحاجة إلى مسارات استنتاج مُعلَّمة من قبل البشر. يُتيح الإطار الـ RL المقترح تطورًا تلقائيًا لأنماط استنتاج متقدمة، مثل التأمل الذاتي، والتحقق، والتكيّف الديناميكي للاستراتيجيات. ونتيجة لذلك، تُظهر النموذج المدرب أداءً متفوقًا في المهام القابلة للتحقق، مثل الرياضيات ومسابقات البرمجة والعلوم والهندسة (STEM)، متفوّقًا على نماذجه المدربة بالطريقة التقليدية عبر التعلم المُراقب على أمثلة بشرية. علاوةً على ذلك، يمكن استخدام الأنماط الاستنتاجية الناشئة التي تُظهرها هذه النماذج الضخمة بشكل منهجي لتوجيه وتعزيز قدرات الاستنتاج في النماذج الأصغر.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

يشجع DeepSeek-R1 على التفكير في النماذج اللغوية الكبيرة من خلال التعلم المعزز

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters