HyperAIHyperAI

Command Palette

Search for a command to run...

LAPO: تكامل كفاءة الاستدلال من خلال تحسين السياسة المتكيفة مع الطول

Xingyu Wu Yuchen Yan Shangke Lyu Linjuan Wu Yiwen Qiu Yongliang Shen Weiming Lu Jian Shao Jun Xiao Yueting Zhuang

الملخص

قد حققت النماذج الكبيرة للتفكير نتائج متميزة من خلال سلاسل التفكير الممتدة، ومع ذلك يؤدي هذا الحرية الحسابية إلى إنتاج عدد كبير جداً من الرموز (tokens) حتى لمشاكل بسيطة. نقدم إطار عمل جديد يُدعى "تحسين السياسة المتكيف مع الطول" (Length-Adaptive Policy Optimization (LAPO)، والذي يحوّل التحكم في طول التفكير من قيود خارجية إلى قدرة داخلية للنموذج. على عكس الطرق الحالية التي تفرض قيوداً صارمة أو تعتمد على تدخلات لاحقة، يمكّن LAPO النماذج من فهم عميق لعمق التفكير المناسب من خلال عملية تعلم تعزيز مزدوجة (two-stage reinforcement learning). في المرحلة الأولى، تتعلم النماذج الأنماط الطبيعية للتفكير من خلال اكتشاف التوزيع الإحصائي لطول الحلول الناجحة. أما في المرحلة الثانية، فيستخدم هذه الأنماط كإرشادات تفكيرية تلقائية (meta-cognitive guidance)، ويدمجها مباشرة في سياق التفكير الخاص بالنموذج لضمان المرونة أثناء الاستنتاج. أظهرت التجارب على معايير التفكير الرياضي أن LAPO يقلل من استخدام الرموز بنسبة تصل إلى 40.9% مع تحسين الدقة بنسبة 2.3%. وخلصت تحليلاتنا إلى أن النماذج التي تم تدريبها باستخدام LAPO تكتسب قدرات جديدة لتنظيم الموارد الحسابية بناءً على تعقيد المشكلة، مما يحقق تفكيراً كفؤاً دون التضحية بالجودة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LAPO: تكامل كفاءة الاستدلال من خلال تحسين السياسة المتكيفة مع الطول | مستندات | HyperAI