HyperAIHyperAI

Command Palette

Search for a command to run...

Parallèle-R1: نحو التفكير المتوازٍ من خلال التعلم بالتعزيز

الملخص

أصبح التفكير المتوازي (Parallel Thinking) منهجًا جديدًا لتعزيز قدرات الاستدلال في النماذج اللغوية الكبيرة (LLMs)، من خلال استكشاف مسارات استدلال متعددة بالتوازي. ومع ذلك، لا يزال تفعيل هذه القدرات من خلال التدريب أمرًا صعبًا، نظرًا لأن الطرق الحالية تعتمد بشكل رئيسي على التحسين المُراقب (SFT) على بيانات مُصطنعة، مما يشجع على تقليد "المعلم" بدلاً من التفكير الاستكشافي والتعميم. على عكس هذه الطرق، نقترح إطار العمل Parallel-R1، أول إطار تعزيز تعلمي (RL) يمكّن النماذج من سلوك التفكير المتوازي في المهام المعقدة الواقعية. ويستخدم إطارنا خطة تدريب تدريجية (Progressive Curriculum) تتناول بشكل صريح مشكلة البدء البارد (Cold-Start) في تدريب التفكير المتوازي باستخدام التعلم بالتعزيز. ففي المرحلة الأولى، نستخدم التحسين المُراقب على مسارات مُولَّدة من المحفزات (prompts) من مهام أبسط، بهدف غرس قدرة التفكير المتوازي، ثم ننتقل إلى التعلم بالتعزيز لاستكشاف هذه المهارة وتوسيع نطاق تعميمها على المهام الأصعب. أظهرت التجارب على مجموعة متنوعة من معايير الرياضيات، بما في ذلك MATH وAMC23 وAIME، أن Parallel-R1 نجح في غرس مهارة التفكير المتوازي، مما أدى إلى تحسن بنسبة 8.4% في الدقة مقارنة بنموذج التفكير التسلسلي الذي تم تدريبه مباشرة على مهام صعبة باستخدام التعلم بالتعزيز. كما كشف التحليل الإضافي عن تحول واضح في سلوك النموذج في التفكير: في المراحل المبكرة، يستخدم التفكير المتوازي كاستراتيجية استكشاف، بينما في المراحل اللاحقة، يستخدم نفس القدرة للتحقق من النتائج من زوايا متعددة. والأهم من ذلك، قمنا بتوثيق التفكير المتوازي كهيكل داعم استكشافي خلال التدريب الوسطي، حيث يُفعّل هذا المرحلة الاستكشافية المؤقتة سقفًا أعلى للأداء بعد التعلم بالتعزيز، مما أدى إلى تحسن بنسبة 42.9% مقارنة بالنموذج الأساسي على AIME25. وسيتم إتاحة نموذجنا وبياناتنا وشفرتنا مفتوحة المصدر عبر الرابط: https://github.com/zhengkid/Parallel-R1.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Parallèle-R1: نحو التفكير المتوازٍ من خلال التعلم بالتعزيز | مستندات | HyperAI