HyperAI

تقطير المعرفة

تقطير المعرفة هو أحد تقنيات التعلم الآلي التي تهدف إلى نقل التعلمات من نموذج كبير تم تدريبه مسبقًا (نموذج المعلم) إلى "نموذج الطالب" الأصغر. يتم استخدامه كشكل من أشكال ضغط النموذج ونقل المعرفة في التعلم العميق، وهو مناسب بشكل خاص للشبكات العصبية العميقة واسعة النطاق.

الهدف من تقطير المعرفة هو تدريب نموذج أكثر إحكاما لمحاكاة نماذج أكبر وأكثر تعقيدا. في حين أن هدف التعلم العميق التقليدي هو تدريب شبكة عصبية اصطناعية لجعل تنبؤاتها أقرب إلى أمثلة الإخراج المقدمة في مجموعة البيانات التدريبية، فإن الهدف الرئيسي من تقطير المعرفة هو تدريب شبكة الطلاب لتتوافق مع تنبؤات شبكة المعلم.

تُستخدم عملية تقطير المعرفة (KD) بشكل شائع في الشبكات العصبية العميقة الكبيرة ذات الطبقات المتعددة والمعلمات القابلة للتعلم. وتُعد هذه العملية ذات صلة خاصة بنماذج الذكاء الاصطناعي التوليدية واسعة النطاق الناشئة والتي تحتوي على مليارات المعلمات.

نشأ المفهوم في ورقة بحثية عام 2006 بعنوان ورقة "ضغط النموذج". كاروانا وآخرون استخدم نموذج تصنيف متطور في ذلك الوقت (نموذج مجموعة كبيرة يتكون من مئات المصنفات الأساسية) لوضع علامة على مجموعة بيانات كبيرة ثم قام بتدريب شبكة عصبية واحدة على مجموعة البيانات المصنفة حديثًا من خلال التعلم الخاضع للإشراف التقليدي.

لقد تم تطبيق تقنيات تقطير المعرفة بنجاح في مجالات مختلفة، بما في ذلك معالجة اللغة الطبيعية (NLP)، والتعرف على الكلام، والتعرف على الصور، واكتشاف الأشياء. في السنوات الأخيرة، أصبح البحث في تقطير المعرفة مهمًا بشكل خاص بالنسبة لنماذج اللغة الكبيرة (LLMs). بالنسبة لـ LLM، أصبح تقطير المعرفة وسيلة فعالة لنقل الميزات المتقدمة من النماذج الملكية الرائدة إلى نماذج مفتوحة المصدر أصغر حجماً وأكثر سهولة في الوصول إليها.

مراجع

【1】https://www.ibm.com/topics/knowledge-distillation