منذ 17 أيام

الاستخلاص المُقنَّع غير المتماثل لتدريب النماذج الأساسية الصغيرة مسبقًا

Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang

الملخص

أظهرت النماذج الأساسية ذاتية التدريب إمكانات كبيرة في رؤية الحاسوب بفضل نموذج التدريب المسبق عبر الترميز المُعطل (masked autoencoding). ويعتبر الحجم عاملاً رئيسيًا يؤثر على أداء هذه النماذج الأساسية. ومع ذلك، غالبًا ما تؤدي النماذج الأساسية الكبيرة إلى تكاليف حسابية عالية. تركز هذه الورقة على التدريب المسبق لنماذج صغيرة نسبيًا من نموذج التحويل البصري (Vision Transformer)، بحيث يمكن تكييفها بكفاءة للمهام التالية. بشكل خاص، مستلهمين من تقنية تبادل المعرفة في ضغط النماذج، نقترح إطارًا جديدًا يُسمى "الاستخلاص المُعطل غير المتماثل" (Asymmetric Masked Distillation - AMD) للتدريب المسبق لنماذج صغيرة نسبيًا باستخدام الترميز التلقائي. ويتمحور جوهر AMD حول تصميم استراتيجية ترميز غير متماثلة، حيث يتمكن النموذج المعلم من رؤية معلومات سياقية أكثر بفضل نسبة ترميز منخفضة، بينما يظل النموذج الطالب مزودًا بنسبة ترميز عالية. كما قمنا بتصميم تطابق مخصص لطبقات الميزات متعددة بين المُشفِّر المعلم والمُشفِّر الطالب، بهدف تنظيم التدريب المسبق للنموذج الطالب باستخدام MAE. ولإثبات فعالية وتنوع إطار AMD، تم تطبيقه على كل من ImageMAE وVideoMAE لتدريب نماذج صغيرة نسبيًا من ViT. وقد حقق AMD دقة تصنيف تبلغ 84.6% على مجموعة بيانات IN1K باستخدام نموذج ViT-B. كما حقق AMD دقة تصنيف تبلغ 73.3% باستخدام نموذج ViT-B على مجموعة بيانات Something-in-Something V2، أي تحسنًا بنسبة 3.7% مقارنة بالنموذج ViT-B الأصلي من VideoMAE. كما تم نقل النماذج المُدرَّبة مسبقًا باستخدام AMD إلى مهام تطبيقية لاحقة، وتم تحقيق تحسين متسق في الأداء مقارنة بالنمذجة التلقائية المعتمدة على الترميز الأصلي. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/MCG-NJU/AMD.