HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

متجهات الاستدلال: نقل قدرات السلسلة من التفكير من خلال الحساب المهمة

Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

متجهات الاستدلال: نقل قدرات السلسلة من التفكير من خلال الحساب المهمة

الملخص

تتطلب النماذج اللغوية الكبيرة غالبًا عمليات تحسين مكلفة، مثل التعلم بالتحفيز، لامتلاك القدرة على أداء المهام المعقدة التي تتطلب التفكير التأملي. تُظهر هذه الدراسة أن القدرة على التفكير، بمجرد تعلّمها، يمكن استخلاصها ونقلها بين النماذج كمتجه مهام مكثّف. نستخدم نموذجين متاحين علنًا، وكلاهما تم تهيئة مُعلّماتهما بشكل متماثل من نوع Qwen2.5، حيث تم تحسين الأول باستخدام التدريب المُوجَّه (SFT)، والثاني باستخدام خوارزمية تحسين السياسة النسبية الجماعية (GRPO) على نفس مجموعة البيانات. ومن هذين النموذجين، استخلصنا متجه التفكير: ( v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}} ). ونفترض أن هذا المتجه يُمثّل القدرة على التفكير التي تُولِّدها خوارزميات التعلم بالتحفيز، مع استبعاد المعرفة المشتركة الناتجة عن عملية التدريب المُوجَّه. عند إضافة هذا المتجه إلى نماذج مُعدّة مسبقًا للتعليم التوجيهي عبر عمليات حسابية بسيطة، تُظهر النتائج تحسّنًا مستمرًا في الأداء على مجموعة متنوعة من اختبارات التفكير: +4.9% في GSM8K، و+4.3% في HumanEval، و+1.7% في SciQ، و+12.3% في BigBenchHard (لنموذج بحجم 1.5 مليار معلمة). كما تظل هذه التحسينات محفوظة حتى في ظل ظروف مُعاكسة. وعكس ذلك، فإن طرح المتجه يؤدي إلى تدهور كبير في الأداء (-11.8% في GSM8K)، مما يدل على المساهمة القوية لهذا المتجه في قدرات التفكير لدى النموذج. تُظهر هذه الدراسة كيف يمكن استخلاص القدرات التفكيرية، التي تُبنى عادةً عبر عمليات تدريب مكلفة، من نماذج مفتوحة المصدر الحالية، و reused عبر عمليات حسابية متجهة بسيطة، مما يوفّر طريقة عملية لتعزيز النماذج من خلال إعادة استخدام الاستثمارات الحسابية السابقة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp