منذ 5 أشهر

الملخص

تتطلب النماذج اللغوية الكبيرة غالبًا عمليات تحسين مكلفة، مثل التعلم بالتحفيز، لامتلاك القدرة على أداء المهام المعقدة التي تتطلب التفكير التأملي. تُظهر هذه الدراسة أن القدرة على التفكير، بمجرد تعلّمها، يمكن استخلاصها ونقلها بين النماذج كمتجه مهام مكثّف. نستخدم نموذجين متاحين علنًا، وكلاهما تم تهيئة مُعلّماتهما بشكل متماثل من نوع Qwen2.5، حيث تم تحسين الأول باستخدام التدريب المُوجَّه (SFT)، والثاني باستخدام خوارزمية تحسين السياسة النسبية الجماعية (GRPO) على نفس مجموعة البيانات. ومن هذين النموذجين، استخلصنا متجه التفكير: ( v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}} ). ونفترض أن هذا المتجه يُمثّل القدرة على التفكير التي تُولِّدها خوارزميات التعلم بالتحفيز، مع استبعاد المعرفة المشتركة الناتجة عن عملية التدريب المُوجَّه. عند إضافة هذا المتجه إلى نماذج مُعدّة مسبقًا للتعليم التوجيهي عبر عمليات حسابية بسيطة، تُظهر النتائج تحسّنًا مستمرًا في الأداء على مجموعة متنوعة من اختبارات التفكير: +4.9% في GSM8K، و+4.3% في HumanEval، و+1.7% في SciQ، و+12.3% في BigBenchHard (لنموذج بحجم 1.5 مليار معلمة). كما تظل هذه التحسينات محفوظة حتى في ظل ظروف مُعاكسة. وعكس ذلك، فإن طرح المتجه يؤدي إلى تدهور كبير في الأداء (-11.8% في GSM8K)، مما يدل على المساهمة القوية لهذا المتجه في قدرات التفكير لدى النموذج. تُظهر هذه الدراسة كيف يمكن استخلاص القدرات التفكيرية، التي تُبنى عادةً عبر عمليات تدريب مكلفة، من نماذج مفتوحة المصدر الحالية، و reused عبر عمليات حسابية متجهة بسيطة، مما يوفّر طريقة عملية لتعزيز النماذج من خلال إعادة استخدام الاستثمارات الحسابية السابقة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار