HyperAI

مزيج من الخبراء (وزارة التعليم)

مزيج الخبراء (MoE) هو أحد تقنيات التعلم الآلي حيث يتم استخدام شبكات متعددة من الخبراء (المتعلمين) لتقسيم مساحة المشكلة إلى مناطق متجانسة.

إن الميزة المهمة لنماذج خليط الخبراء (MoE) هي أنه يمكن تدريبها مسبقًا بشكل فعال باستخدام موارد حسابية أقل بكثير من النماذج الكثيفة. وهذا يعني أنه من الممكن زيادة حجم النموذج أو مجموعة البيانات بشكل كبير باستخدام نفس ميزانية الحوسبة. وخاصة خلال مرحلة ما قبل التدريب، غالبًا ما تكون نماذج مزيج الخبراء قادرة على الوصول إلى نفس مستوى الجودة بشكل أسرع من النماذج الكثيفة.

في سياق نموذج المحول، يتكون MoE من جزأين رئيسيين:

  • طبقة MoE المتفرقة: يحل محل طبقة شبكة التغذية الأمامية الكثيفة التقليدية (FFN). تحتوي طبقة MoE على العديد من "الخبراء" (على سبيل المثال 8)، كل منهم عبارة عن شبكة عصبية مستقلة. عادةً ما يكون هؤلاء الخبراء عبارة عن شبكات FFN، ولكن يمكن أن يكونوا أيضًا شبكات أكثر تعقيدًا أو حتى وزارات تعليم بحد ذاتها، مما يشكل تسلسلًا هرميًا من وزارات التعليم.
  • شبكة أو جهاز توجيه مسور:يتم استخدامه لتحديد الرموز المخصصة لكل خبير. على سبيل المثال، في الشكل أدناه، يتم تعيين الرمز "المزيد" للخبير الثاني، بينما يتم تعيين الرمز "المعلمات" للشبكة الأولى. ومن الجدير بالذكر أنه يمكن تخصيص رمز واحد لخبراء متعددين. تعد كيفية تخصيص الرموز للخبراء المناسبين بكفاءة إحدى القضايا الرئيسية التي يجب مراعاتها عند استخدام تقنية MoE. يتكون هذا الموجه من مجموعة من المعلمات القابلة للتعلم والتي تم تدريبها مسبقًا مع بقية النموذج.

مصدر الصورة: ورق محولات التبديل مثال على طبقة MoE

فكرة تصميم MoE (نموذج الخبراء المختلط) هي: في نموذج المحول، يتم استبدال كل طبقة FFN (شبكة التغذية الأمامية) بطبقة MoE، والتي تتكون من شبكة بوابات والعديد من "الخبراء".

تحديات اختلاط الخبراء (وزارة التعليم)

على الرغم من أن نماذج خليط الخبراء (MoE) تقدم العديد من المزايا المهمة، مثل التدريب المسبق الأكثر كفاءة والاستدلال الأسرع مقارنة بالنماذج الكثيفة، إلا أنها تأتي أيضًا مع بعض التحديات:

  • تحديات التدريب:على الرغم من أن أدوات التعلم الآلي يمكن أن تحقق تدريبًا حسابيًا مسبقًا أكثر كفاءة، إلا أنها غالبًا ما تواجه مشكلة عدم كفاية القدرة على التعميم في مرحلة الضبط الدقيق وتكون عرضة للإفراط في التجهيز على المدى الطويل.
  • تحدي التفكير:على الرغم من أن نماذج MoE قد تحتوي على عدد كبير من المعلمات، إلا أنه يتم استخدام جزء منها فقط أثناء الاستدلال، مما يجعل سرعة الاستدلال أسرع من النماذج الكثيفة التي تحتوي على نفس عدد المعلمات. ومع ذلك، يتطلب هذا النموذج تحميل كافة المعلمات في الذاكرة، وبالتالي فإن متطلبات الذاكرة عالية جدًا. إذا أخذنا MoE مثل Mixtral 8x7B كمثال، فإننا نحتاج إلى ذاكرة VRAM كافية لاستيعاب نموذج كثيف يحتوي على 47B معلمة. السبب في أن القيمة هي 47B بدلاً من 8 × 7B = 56B هو أنه في نموذج MoE، يتم اعتبار طبقة FFN فقط كخبير مستقل، في حين تتم مشاركة المعلمات الأخرى للنموذج. علاوة على ذلك، بافتراض استخدام خبيرين فقط لكل رمز، فإن سرعة الاستدلال (بالوحدات العائمة) تشبه استخدام نموذج 12B (بدلاً من نموذج 14B) لأنه على الرغم من أنه يقوم بضرب مصفوفة 2x7B، فإن طبقات معينة تكون مشتركة.

مراجع

【1】https://huggingface.co/blog/moe