Command Palette
Search for a command to run...
متجهات الاستدلال: نقل قدرات السلسلة من التفكير من خلال الحساب المهمة
Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

الملخص
تتطلب النماذج اللغوية الكبيرة غالبًا عمليات تحسين مكلفة، مثل التعلم بالتحفيز، لامتلاك القدرة على أداء المهام المعقدة التي تتطلب التفكير التأملي. تُظهر هذه الدراسة أن القدرة على التفكير، بمجرد تعلّمها، يمكن استخلاصها ونقلها بين النماذج كمتجه مهام مكثّف. نستخدم نموذجين متاحين علنًا، وكلاهما تم تهيئة مُعلّماتهما بشكل متماثل من نوع Qwen2.5، حيث تم تحسين الأول باستخدام التدريب المُوجَّه (SFT)، والثاني باستخدام خوارزمية تحسين السياسة النسبية الجماعية (GRPO) على نفس مجموعة البيانات. ومن هذين النموذجين، استخلصنا متجه التفكير: ( v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}} ). ونفترض أن هذا المتجه يُمثّل القدرة على التفكير التي تُولِّدها خوارزميات التعلم بالتحفيز، مع استبعاد المعرفة المشتركة الناتجة عن عملية التدريب المُوجَّه. عند إضافة هذا المتجه إلى نماذج مُعدّة مسبقًا للتعليم التوجيهي عبر عمليات حسابية بسيطة، تُظهر النتائج تحسّنًا مستمرًا في الأداء على مجموعة متنوعة من اختبارات التفكير: +4.9% في GSM8K، و+4.3% في HumanEval، و+1.7% في SciQ، و+12.3% في BigBenchHard (لنموذج بحجم 1.5 مليار معلمة). كما تظل هذه التحسينات محفوظة حتى في ظل ظروف مُعاكسة. وعكس ذلك، فإن طرح المتجه يؤدي إلى تدهور كبير في الأداء (-11.8% في GSM8K)، مما يدل على المساهمة القوية لهذا المتجه في قدرات التفكير لدى النموذج. تُظهر هذه الدراسة كيف يمكن استخلاص القدرات التفكيرية، التي تُبنى عادةً عبر عمليات تدريب مكلفة، من نماذج مفتوحة المصدر الحالية، و reused عبر عمليات حسابية متجهة بسيطة، مما يوفّر طريقة عملية لتعزيز النماذج من خلال إعادة استخدام الاستثمارات الحسابية السابقة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.