HyperAIHyperAI
منذ 15 أيام

مِكس لورا: تحسين التخصيص النموذجيات الكبيرة للغة من خلال مزيج خبراء مبني على لورا

Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang
مِكس لورا: تحسين التخصيص النموذجيات الكبيرة للغة من خلال مزيج خبراء مبني على لورا
الملخص

إعادة ضبط النماذج الكبيرة للغة (LLMs) هو ممارسة شائعة لتكيف النماذج المُدرَّبة مسبقًا مع تطبيقات محددة. وعلى الرغم من أن الطرق مثل LoRA قد وفرت حلولًا فعّالة لمشكلة قيود ذاكرة GPU أثناء إعادة الضبط، إلا أن أداؤها غالبًا ما يُظهر تراجعًا، خاصة في السيناريوهات متعددة المهام. في المقابل، تُظهر نماذج مزيج الخبراء (MoE)، مثل Mixtral 8x7B، أداءً متميزًا في سيناريوهات التعلم متعدد المهام مع الحفاظ على عدد محدود من المعاملات. ومع ذلك، تظل متطلبات الموارد لهذه النماذج تحديًا كبيرًا، خصوصًا بالنسبة لبطاقات GPU المستهلكة ذات ذاكرة أقل من 24 جيجابايت. لمعالجة هذه التحديات، نقترح MixLoRA، وهي طريقة لبناء نموذج MoE نادر وفعال من حيث الموارد بناءً على LoRA. يُدمج MixLoRA خبراء متعددين مبنيين على LoRA داخل كتلة الشبكة التغذوية العكسية (feed-forward) لنموذج كثيف مُجمَّد مسبقًا، ويُستخدم مُوجِّه شائع يعتمد على أعلى k مُرشح (top-k router). على عكس الطرق الأخرى القائمة على LoRA لبناء نماذج MoE، يُعزز MixLoRA أداء النموذج من خلال استخدام مُعدِّلات LoRA مستقلة لكل طبقة انتباه (attention-layer LoRA adapters). علاوةً على ذلك، يتم استخدام خسارة توازن إضافية (auxiliary load balance loss) لمعالجة مشكلة عدم التوازن في مُوجِّه النموذج. أظهرت تقييماتنا أن MixLoRA يُحسّن الدقة بنسبة تقارب 9% مقارنة بأفضل الطرق الحالية من نوع PEFT في السيناريوهات متعددة المهام. كما نقترح إطارًا جديدًا عالي الكفاءة (high-throughput) لتخفيف العوائق الحسابية وذاكرة التخزين أثناء تدريب وتشغيل نماذج MoE. يقلل هذا الإطار من استهلاك ذاكرة GPU بنسبة 40%، ويقلل من زمن التأخير في معالجة الرموز (token computation latency) بنسبة 30% خلال كل من مرحلتي التدريب والاستدلال.