HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

HiPO: تحسين السياسة الهجيني للتفكير الديناميكي في النماذج اللغوية الكبيرة

HiPO: تحسين السياسة الهجيني للتفكير الديناميكي في النماذج اللغوية الكبيرة

الملخص

تُعتمد نماذج اللغة الكبيرة (LLMs) بشكل متزايد على الاستدلال المتسلسل (Chain-of-Thought أو CoT) لتحسين الدقة في الأداء على المهام المعقدة. ومع ذلك، فإن إنتاج سلاسل استدلال طويلة بشكل دائم يكون غير فعّال، مما يؤدي إلى استهلاك كبير للوحدات النصية (tokens) وارتفاع تكاليف الاستنتاج. تقدم هذه الورقة إطارًا جديدًا يُسمى التحسين السياسي الهجين (HiPO)، وهو إطار للتحكم التكيفي في الاستدلال، يمكّن نماذج اللغة الكبيرة من اتخاذ قرارات ذكية بشأن متى ينبغي أن تُجرِّب استدلالًا مفصلًا (Think-on) ومتى ينبغي أن تُجيب مباشرةً دون استدلال (Think-off). وبشكل خاص، يدمج HiPO خط أنابيب بيانات هجين يوفر إجابات مزدوجة (Think-on وThink-off) مع نظام مكافآت مبني على التعلم المعزز الهجين، الذي يوازن بين الدقة والكفاءة، ويُقلل من الاعتماد المفرط على الاستدلال التفصيلي. أظهرت التجارب على معايير رياضية وبرمجة أن HiPO يمكنه تقليل طول الوحدات النصية بشكل كبير مع الحفاظ على الدقة أو حتى تحسينها. في النهاية، نأمل أن يُصبح HiPO منهجًا مُبَنَّى على مبادئ علمية للاستدلال التكيفي الفعّال، مما يُسهم في تطوير استخدام نماذج لغة كبرى موجهة نحو الاستدلال في البيئات الواقعية الحساسة للموارد.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
HiPO: تحسين السياسة الهجيني للتفكير الديناميكي في النماذج اللغوية الكبيرة | الأوراق البحثية | HyperAI