MiniLLM: تَوْرِيدُ المعرفةِ من نماذج اللغة الكبيرة

تُعد تقنية التعلم بالاستيعاب (Knowledge Distillation (KD)) تقنية واعدة لتقليل الحاجة العالية للحساب في النماذج اللغوية الكبيرة (LLMs). ومع ذلك، فإن الطرق السابقة للاستيعاب تُطبَّق بشكل رئيسي على نماذج التصنيف ذات العلبة البيضاء، أو على تدريب النماذج الصغيرة لمحاكاة واجهات برمجة التطبيقات (APIs) للنماذج ذات العلبة السوداء مثل ChatGPT. ما زال هناك نقص في الدراسات المتعلقة بكيفية استيعاب المعرفة من النماذج اللغوية الكبيرة ذات العلبة البيضاء بكفاءة وتحويلها إلى نماذج صغيرة، وهو أمر أصبح أكثر أهمية مع الازدهار المتسارع للنماذج اللغوية الكبيرة المفتوحة المصدر. في هذا العمل، نقترح منهجية للاستيعاب تُستخدم لتحويل النماذج اللغوية الكبيرة إلى نماذج لغوية أصغر. نبدأ بتعويض دالة التباين كولباك-ليبلر (KLD) في الاتجاه الأمامي، التي تُستخدم بشكل شائع في الطرق التقليدية للاستيعاب، بـ KLD العكسي، والذي يُعد أكثر ملاءمة للاستيعاب في النماذج اللغوية التوليدية، وذلك لمنع النموذج الطالب من المبالغة في تقدير مناطق التوزيع المُعلّم ذات الاحتمال المنخفض. ثم، نُطوّر طريقة فعّالة للتحسين لتعلم هذه الدالة. ونُسمّي النماذج الطالب بـ "MiniLLM". أظهرت التجارب الواسعة في البيئة المُوجهة بالتعليمات أن MiniLLM تُنتج إجابات أكثر دقة، وذات جودة إجمالية أعلى، وانحيازًا أقل تعرّضًا (exposure bias)، وتحسينًا في التصحيح (calibration)، وأداءً أفضل في توليد النصوص الطويلة مقارنةً بالأسس (baselines). تُعد منهجيتنا قابلة للتوسع على مختلف عائلات النماذج ذات الحجم المُتباين من 120 مليون إلى 13 مليار معلمة. يمكن العثور على الكود، والبيانات، ونقاط التحقق (checkpoints) للنماذج على الرابط التالي: https://github.com/microsoft/LMOps/tree/main/minillm.