HiPO: تحسين السياسة الهجيني للتفكير الديناميكي في النماذج اللغوية الكبيرة

الملخص
تُعتمد نماذج اللغة الكبيرة (LLMs) بشكل متزايد على الاستدلال المتسلسل (Chain-of-Thought أو CoT) لتحسين الدقة في الأداء على المهام المعقدة. ومع ذلك، فإن إنتاج سلاسل استدلال طويلة بشكل دائم يكون غير فعّال، مما يؤدي إلى استهلاك كبير للوحدات النصية (tokens) وارتفاع تكاليف الاستنتاج. تقدم هذه الورقة إطارًا جديدًا يُسمى التحسين السياسي الهجين (HiPO)، وهو إطار للتحكم التكيفي في الاستدلال، يمكّن نماذج اللغة الكبيرة من اتخاذ قرارات ذكية بشأن متى ينبغي أن تُجرِّب استدلالًا مفصلًا (Think-on) ومتى ينبغي أن تُجيب مباشرةً دون استدلال (Think-off). وبشكل خاص، يدمج HiPO خط أنابيب بيانات هجين يوفر إجابات مزدوجة (Think-on وThink-off) مع نظام مكافآت مبني على التعلم المعزز الهجين، الذي يوازن بين الدقة والكفاءة، ويُقلل من الاعتماد المفرط على الاستدلال التفصيلي. أظهرت التجارب على معايير رياضية وبرمجة أن HiPO يمكنه تقليل طول الوحدات النصية بشكل كبير مع الحفاظ على الدقة أو حتى تحسينها. في النهاية، نأمل أن يُصبح HiPO منهجًا مُبَنَّى على مبادئ علمية للاستدلال التكيفي الفعّال، مما يُسهم في تطوير استخدام نماذج لغة كبرى موجهة نحو الاستدلال في البيئات الواقعية الحساسة للموارد.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.