HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 21 أيام

QeRL: ما وراء الكفاءة — التعلم المعزز بالكمّية للذكاء الاصطناعي الكبير النموذج (LLMs)

QeRL: ما وراء الكفاءة — التعلم المعزز بالكمّية للذكاء الاصطناعي الكبير النموذج (LLMs)

الملخص

نُقدِّم QeRL، وهي إطار عمل مُحسَّن بالكمّية (Quantization-enhanced) للتعلم التكاملي (Reinforcement Learning) مُصمم خصيصًا لنماذج اللغة الكبيرة (LLMs). على الرغم من أن التعلم التكاملي ضروري لتمكين قدرات التفكير لدى نماذج اللغة الكبيرة، إلا أنه يتطلب موارد كبيرة، بما في ذلك ذاكرة GPU واسعة جدًا وفترة تشغيل طويلة (rollout). وتُعالج QeRL هذه التحديات من خلال دمج تقنية التكميم NVFP4 مع التكييف من الرتبة المنخفضة (LoRA)، مما يُسرّع عملية التشغيل (rollout) في مرحلة التعلم التكاملي ويقلل من استهلاك الذاكرة. وبالإضافة إلى كفاءة الأداء، تُظهر نتائجنا أن الضوضاء الناتجة عن التكميم تزيد من الانتروبيا السياسية (policy entropy)، ما يعزز من عملية الاستكشاف، ويُمكّن من اكتشاف استراتيجيات أفضل أثناء التعلم التكاملي. ولتحسين استكشاف الفضاء التدريبي بشكل أكبر، تُقدِّم QeRL آلية لضوضاء التكميم التكيفية (Adaptive Quantization Noise - AQN)، التي تقوم بتعديل ضوضاء التكميم بشكل ديناميكي خلال عملية التدريب. تُظهر التجارب أن QeRL تُحقِّق زيادة في السرعة تفوق 1.5 مرة في مرحلة التشغيل (rollout). وبالإضافة إلى ذلك، فإنها أول إطار عمل يُمكِّن من تدريب نموذج LLM بحجم 32 مليار معلمة (32B) على وحدة معالجة رسوميات واحدة (H100 80GB)، مع تحقيق تسريع عام في عملية تدريب التعلم التكاملي. كما تُسجِّل QeRL نموًا أسرع في المكافآت ودقة نهائية أعلى مقارنةً بـ LoRA ذات 16 بت وQLoRA، مع الحفاظ على الأداء المُعادل للتعديل الكامل للبارامترات (full-parameter fine-tuning) في اختبارات رياضية مثل GSM8K (90.8%) وMATH 500 (77.4%) عند استخدام النموذج الصغير بحجم 7 مليار معلمة (7B). تُثبت هذه النتائج أن QeRL تمثل إطار عمل فعّال وكفؤ لتدريب التعلم التكاملي في نماذج اللغة الكبيرة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
QeRL: ما وراء الكفاءة — التعلم المعزز بالكمّية للذكاء الاصطناعي الكبير النموذج (LLMs) | الأوراق البحثية | HyperAI