LAPO: تكامل كفاءة الاستدلال من خلال تحسين السياسة المتكيفة مع الطول

قد حققت النماذج الكبيرة للتفكير نتائج متميزة من خلال سلاسل التفكير الممتدة، ومع ذلك يؤدي هذا الحرية الحسابية إلى إنتاج عدد كبير جداً من الرموز (tokens) حتى لمشاكل بسيطة. نقدم إطار عمل جديد يُدعى "تحسين السياسة المتكيف مع الطول" (Length-Adaptive Policy Optimization (LAPO)، والذي يحوّل التحكم في طول التفكير من قيود خارجية إلى قدرة داخلية للنموذج. على عكس الطرق الحالية التي تفرض قيوداً صارمة أو تعتمد على تدخلات لاحقة، يمكّن LAPO النماذج من فهم عميق لعمق التفكير المناسب من خلال عملية تعلم تعزيز مزدوجة (two-stage reinforcement learning). في المرحلة الأولى، تتعلم النماذج الأنماط الطبيعية للتفكير من خلال اكتشاف التوزيع الإحصائي لطول الحلول الناجحة. أما في المرحلة الثانية، فيستخدم هذه الأنماط كإرشادات تفكيرية تلقائية (meta-cognitive guidance)، ويدمجها مباشرة في سياق التفكير الخاص بالنموذج لضمان المرونة أثناء الاستنتاج. أظهرت التجارب على معايير التفكير الرياضي أن LAPO يقلل من استخدام الرموز بنسبة تصل إلى 40.9% مع تحسين الدقة بنسبة 2.3%. وخلصت تحليلاتنا إلى أن النماذج التي تم تدريبها باستخدام LAPO تكتسب قدرات جديدة لتنظيم الموارد الحسابية بناءً على تعقيد المشكلة، مما يحقق تفكيراً كفؤاً دون التضحية بالجودة.