HyperAI

الملخص

تُعتمد نماذج اللغة الكبيرة (LLMs) بشكل متزايد على الاستدلال المتسلسل (Chain-of-Thought أو CoT) لتحسين الدقة في الأداء على المهام المعقدة. ومع ذلك، فإن إنتاج سلاسل استدلال طويلة بشكل دائم يكون غير فعّال، مما يؤدي إلى استهلاك كبير للوحدات النصية (tokens) وارتفاع تكاليف الاستنتاج. تقدم هذه الورقة إطارًا جديدًا يُسمى التحسين السياسي الهجين (HiPO)، وهو إطار للتحكم التكيفي في الاستدلال، يمكّن نماذج اللغة الكبيرة من اتخاذ قرارات ذكية بشأن متى ينبغي أن تُجرِّب استدلالًا مفصلًا (Think-on) ومتى ينبغي أن تُجيب مباشرةً دون استدلال (Think-off). وبشكل خاص، يدمج HiPO خط أنابيب بيانات هجين يوفر إجابات مزدوجة (Think-on وThink-off) مع نظام مكافآت مبني على التعلم المعزز الهجين، الذي يوازن بين الدقة والكفاءة، ويُقلل من الاعتماد المفرط على الاستدلال التفصيلي. أظهرت التجارب على معايير رياضية وبرمجة أن HiPO يمكنه تقليل طول الوحدات النصية بشكل كبير مع الحفاظ على الدقة أو حتى تحسينها. في النهاية، نأمل أن يُصبح HiPO منهجًا مُبَنَّى على مبادئ علمية للاستدلال التكيفي الفعّال، مما يُسهم في تطوير استخدام نماذج لغة كبرى موجهة نحو الاستدلال في البيئات الواقعية الحساسة للموارد.

HiPO: تحسين السياسة الهجيني للتفكير الديناميكي في النماذج اللغوية الكبيرة

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Command Palette

HiPO: تحسين السياسة الهجيني للتفكير الديناميكي في النماذج اللغوية الكبيرة

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao18 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao