الملخص

أصبح التفكير المتوازي (Parallel Thinking) منهجًا جديدًا لتعزيز قدرات الاستدلال في النماذج اللغوية الكبيرة (LLMs)، من خلال استكشاف مسارات استدلال متعددة بالتوازي. ومع ذلك، لا يزال تفعيل هذه القدرات من خلال التدريب أمرًا صعبًا، نظرًا لأن الطرق الحالية تعتمد بشكل رئيسي على التحسين المُراقب (SFT) على بيانات مُصطنعة، مما يشجع على تقليد "المعلم" بدلاً من التفكير الاستكشافي والتعميم. على عكس هذه الطرق، نقترح إطار العمل Parallel-R1، أول إطار تعزيز تعلمي (RL) يمكّن النماذج من سلوك التفكير المتوازي في المهام المعقدة الواقعية. ويستخدم إطارنا خطة تدريب تدريجية (Progressive Curriculum) تتناول بشكل صريح مشكلة البدء البارد (Cold-Start) في تدريب التفكير المتوازي باستخدام التعلم بالتعزيز. ففي المرحلة الأولى، نستخدم التحسين المُراقب على مسارات مُولَّدة من المحفزات (prompts) من مهام أبسط، بهدف غرس قدرة التفكير المتوازي، ثم ننتقل إلى التعلم بالتعزيز لاستكشاف هذه المهارة وتوسيع نطاق تعميمها على المهام الأصعب. أظهرت التجارب على مجموعة متنوعة من معايير الرياضيات، بما في ذلك MATH وAMC23 وAIME، أن Parallel-R1 نجح في غرس مهارة التفكير المتوازي، مما أدى إلى تحسن بنسبة 8.4% في الدقة مقارنة بنموذج التفكير التسلسلي الذي تم تدريبه مباشرة على مهام صعبة باستخدام التعلم بالتعزيز. كما كشف التحليل الإضافي عن تحول واضح في سلوك النموذج في التفكير: في المراحل المبكرة، يستخدم التفكير المتوازي كاستراتيجية استكشاف، بينما في المراحل اللاحقة، يستخدم نفس القدرة للتحقق من النتائج من زوايا متعددة. والأهم من ذلك، قمنا بتوثيق التفكير المتوازي كهيكل داعم استكشافي خلال التدريب الوسطي، حيث يُفعّل هذا المرحلة الاستكشافية المؤقتة سقفًا أعلى للأداء بعد التعلم بالتعزيز، مما أدى إلى تحسن بنسبة 42.9% مقارنة بالنموذج الأساسي على AIME25. وسيتم إتاحة نموذجنا وبياناتنا وشفرتنا مفتوحة المصدر عبر الرابط: https://github.com/zhengkid/Parallel-R1.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

Parallèle-R1: نحو التفكير المتوازٍ من خلال التعلم بالتعزيز

Tong Zheng Hongming Zhang Wenhao Yu Xiaoyang Wang Xinyu Yang Runpeng Dai Rui Liu Huiwen Bao Chengsong Huang Heng Huang1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Parallèle-R1: نحو التفكير المتوازٍ من خلال التعلم بالتعزيز

Tong Zheng Hongming Zhang Wenhao Yu Xiaoyang Wang Xinyu Yang Runpeng Dai Rui Liu Huiwen Bao Chengsong Huang Heng Huang1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Parallèle-R1: نحو التفكير المتوازٍ من خلال التعلم بالتعزيز

Tong Zheng Hongming Zhang Wenhao Yu Xiaoyang Wang Xinyu Yang Runpeng Dai Rui Liu Huiwen Bao Chengsong Huang Heng Huang1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Tong Zheng Hongming Zhang Wenhao Yu Xiaoyang Wang Xinyu Yang Runpeng Dai Rui Liu Huiwen Bao Chengsong Huang Heng Huang

Tong Zheng Hongming Zhang Wenhao Yu Xiaoyang Wang Xinyu Yang Runpeng Dai Rui Liu Huiwen Bao Chengsong Huang Heng Huang

Tong Zheng Hongming Zhang Wenhao Yu Xiaoyang Wang Xinyu Yang Runpeng Dai Rui Liu Huiwen Bao Chengsong Huang Heng Huang