HyperAIHyperAI
منذ 12 أيام

PromptCoT 2.0: توسيع توليد التعليمات لاستدلال النماذج اللغوية الكبيرة

Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
PromptCoT 2.0: توسيع توليد التعليمات لاستدلال النماذج اللغوية الكبيرة
الملخص

تتطور النماذج اللغوية الكبيرة (LLMs) من أنظمة تفاعلية إلى أنظمة قادرة على الاستدلال القوي في مهام مثل الرياضيات الأوليمبية والبرمجة التنافسية. وعلى الرغم من أن التوسع في عدد المعاملات (البارامترات) وزيادة الحسابات أثناء الاختبار قد أسهم في تقدم كبير، إلا أن العائق الرئيسي يكمن في نقص المشكلات عالية الجودة المستخدمة في التدريب: إذ إن المجموعات المُعدّة يدويًا من قبل البشر مكلفة ومحدودة، بينما تكون المجموعات الاصطناعية الحالية غالبًا سهلة جدًا أو ضيقة النطاق. وقد أظهرت نسخة PromptCoT 1.0 أن إدخال السياقات الاستدلالية (الاستنتاجات) أثناء عملية توليد المحفزات (prompts) يؤدي إلى زيادة صعوبة المشكلات. وبناءً على ذلك، نقدّم PromptCoT 2.0، وهي إطار عمل قابل للتوسع، يُستبدل فيه التصميم اليدوي للخوارزميات بحلقة تكرارية باستخدام خوارزمية التوقع-التحديث (Expectation-Maximization, EM)، حيث تُحدّث السياقات الاستدلالية بشكل تدريجي لتوجيه عملية بناء المحفزات. ويُنتج هذا النهج مشكلات أصعب وأكثر تنوعًا من المجموعات السابقة. كما تدعم المحفزات الاصطناعية نمطين من التدريب اللاحق: (1) اللعب الذاتي (Self-Play)، حيث تتحسن النماذج القوية بشكل مستقل عبر تغذية راجعة قابلة للتحقق دون الحاجة إلى معلمين أقوى؛ و(2) التدريب الدقيق المراقب (Supervised Fine-Tuning, SFT)، حيث تتعلم النماذج الأضعف من خلال آثار تلخيص المعلّمين (teacher-distilled traces). أظهرت التجارب الواسعة فعالية هذا النهج. في سياق اللعب الذاتي، أدى تطبيق PromptCoT 2.0 على النموذج Qwen3-30B-A3B-Thinking-2507 إلى تحقيق نتائج جديدة على مستوى أفضل الأداء (state-of-the-art) في المقياس 30B، مع مكاسب بلغت +4.4 و+4.8 و+5.3 في اختبارات AIME 24/25 وHMMT 25، و+6.1 و+5.0 في LiveCodeBench v5/v6، و+35 نقطة في Elo على Codeforces. أما في نمط SFT، فقد أدى تدريب النموذج Qwen2.5-7B-Instruct فقط على المحفزات الاصطناعية إلى رفع دقة التصنيف إلى 73.1 (AIME 24)، و65.6 (AIME 25)، و53.4 (LiveCodeBench v5)، متفوّقًا على النماذج التي تم تدريبها على بيانات بشرية أو مختلطة. كما أكّدت التحليلات الإضافية أن PromptCoT 2.0 تُنتج مشكلات ذات صعوبة جوهرية أعلى، وتمتاز بتوزيعات مختلفة عن المجموعات السابقة. تُثبت هذه النتائج أن توليد المحفزات قد أصبح محورًا جديدًا للتوسع في القدرة على الاستدلال، وتجعل من PromptCoT 2.0 أساسًا قابلاً للتوسع لتطوير النماذج المفتوحة المصدر في المستقبل. يمكن الوصول إلى التنفيذ العملي عبر الرابط التالي: https://...