HyperAIHyperAI
منذ 2 أشهر

التصميم النادر كفاءة في المعلمات من الكثافة إلى مزيج الخبراء لضبط التعليمات على المهام العامة

Haoyuan Wu; Haisheng Zheng; Zhuolun He; Bei Yu
التصميم النادر كفاءة في المعلمات من الكثافة إلى مزيج الخبراء لضبط التعليمات على المهام العامة
الملخص

أظهرت النماذج اللغوية الكبيرة (LLMs) كفاءة كبيرة في مهام معالجة اللغة الطبيعية العامة (NLP). يعتبر ضبط التعليمات، وهو نموذج ناجح، طريقة لتعزيز قدرة هذه النماذج على اتباع تعليمات اللغة الطبيعية وعرض تعميم قوي عبر المهام العامة. ومع ذلك، غالباً ما تواجه هذه النماذج حدوداً في الأداء عبر العديد من المهام بسبب القدرة المحدودة للنموذج. توسيع هذه القدرة خلال مرحلة ضبط التعليمات يشكل تحديات كبيرة. لمعالجة هذا الأمر، نقدم تقنية صياغة الندرة ذات الكفاءة العالية في المعلمات (PESC)، والتي تقوم بتحويل النماذج الكثيفة إلى نماذج نادرة باستخدام هندسة خليط الخبراء (MoE). تقوم PESC بدمج المكيفات في طبقات MoE للنماذج النادرة، مما يميز الخبراء دون تغيير الأوزان الفردية داخل هذه الطبقات. هذا الأسلوب يقلل بشكل كبير من التكاليف الحسابية ومتطلبات ذاكرة GPU، مما يسهل توسيع قدرة النموذج من خلال زيادة بسيطة في المعلمات عند ضمان جودة التقريب في فضاء الدالة مقارنة بالتدوير النادر الأصلي. أثبتت تقييماتنا التجريبية فعالية طريقة PESC. باستخدام PESC أثناء ضبط التعليمات، أدى أفضل نموذج نادر لدينا إلى تفوقه على باقي النماذج النادرة والكثيفة وأظهر قدرات عامة متفوقة مقارنة بـ GPT-3.5. يمكن الوصول إلى شفرتنا البرمجية من خلال الرابط: https://github.com/wuhy68/Parameter-Efficient-MoE.

التصميم النادر كفاءة في المعلمات من الكثافة إلى مزيج الخبراء لضبط التعليمات على المهام العامة | أحدث الأوراق البحثية | HyperAI