HyperAIHyperAI

Command Palette

Search for a command to run...

متجهات الاستدلال: نقل قدرات السلسلة من التفكير من خلال الحساب المهمة

Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

الملخص

تتطلب النماذج اللغوية الكبيرة غالبًا عمليات تحسين مكلفة، مثل التعلم بالتحفيز، لامتلاك القدرة على أداء المهام المعقدة التي تتطلب التفكير التأملي. تُظهر هذه الدراسة أن القدرة على التفكير، بمجرد تعلّمها، يمكن استخلاصها ونقلها بين النماذج كمتجه مهام مكثّف. نستخدم نموذجين متاحين علنًا، وكلاهما تم تهيئة مُعلّماتهما بشكل متماثل من نوع Qwen2.5، حيث تم تحسين الأول باستخدام التدريب المُوجَّه (SFT)، والثاني باستخدام خوارزمية تحسين السياسة النسبية الجماعية (GRPO) على نفس مجموعة البيانات. ومن هذين النموذجين، استخلصنا متجه التفكير: ( v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}} ). ونفترض أن هذا المتجه يُمثّل القدرة على التفكير التي تُولِّدها خوارزميات التعلم بالتحفيز، مع استبعاد المعرفة المشتركة الناتجة عن عملية التدريب المُوجَّه. عند إضافة هذا المتجه إلى نماذج مُعدّة مسبقًا للتعليم التوجيهي عبر عمليات حسابية بسيطة، تُظهر النتائج تحسّنًا مستمرًا في الأداء على مجموعة متنوعة من اختبارات التفكير: +4.9% في GSM8K، و+4.3% في HumanEval، و+1.7% في SciQ، و+12.3% في BigBenchHard (لنموذج بحجم 1.5 مليار معلمة). كما تظل هذه التحسينات محفوظة حتى في ظل ظروف مُعاكسة. وعكس ذلك، فإن طرح المتجه يؤدي إلى تدهور كبير في الأداء (-11.8% في GSM8K)، مما يدل على المساهمة القوية لهذا المتجه في قدرات التفكير لدى النموذج. تُظهر هذه الدراسة كيف يمكن استخلاص القدرات التفكيرية، التي تُبنى عادةً عبر عمليات تدريب مكلفة، من نماذج مفتوحة المصدر الحالية، و reused عبر عمليات حسابية متجهة بسيطة، مما يوفّر طريقة عملية لتعزيز النماذج من خلال إعادة استخدام الاستثمارات الحسابية السابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
متجهات الاستدلال: نقل قدرات السلسلة من التفكير من خلال الحساب المهمة | مستندات | HyperAI