HyperAIHyperAI
منذ 17 أيام

التنضيد المشترك للتعلم الناقل

{Jianmin Wang, Mingsheng Long, Zhi Kou, Kaichao You}
التنضيد المشترك للتعلم الناقل
الملخص

إعادة ضبط الشبكات العصبية العميقة المُدرَّبة مسبقًا (DNNs) على مجموعة بيانات مستهدفة، المعروفة أيضًا بتعلم النقل، يُستخدم على نطاق واسع في رؤية الحاسوب واللغة الطبيعية. وبما أن الطبقات المخصصة للمهام تحتوي بشكل رئيسي على معلومات فئوية، وتختلف هذه الفئات باختلاف المجموعات البيانات، فإن الممارسين يُعيدون ضبط النماذج المُدرَّبة مسبقًا بشكل جزئي فقط، وذلك بحذف الطبقات المخصصة للمهام وإعادة ضبط الطبقات السفلى. ومع ذلك، فإن حذف معلمات الطبقات المخصصة للمهام بشكل بسيط، والتي قد تمثل حتى 20% من إجمالي المعلمات في النماذج المُدرَّبة مسبقًا، يُعدّ خسارة متهورة. لضمان إعادة ضبط نموذج مُدرَّب مسبقًا بشكل كامل، نقترح إطارًا ثنائي الخطوات يُسمى Co-Tuning، يتضمن: (1) تعلُّم العلاقة بين الفئات المصدرية والفئات المستهدفة من خلال النموذج المُدرَّب مسبقًا وتوقعاته المُعدَّلة؛ و(2) استخدام التسميات المستهدفة (التسميات ذات النمط one-hot) والتسميات المصدرية (التسميات الاحتمالية التي تم تحويلها عبر العلاقة بين الفئات) معًا لمرافقة عملية إعادة الضبط. تُظهر نسخة بسيطة من هذا الإطار نتائج تجريبية قوية في أربع مهام تصنيف بصري ومهام تصنيف واحدة في معالجة اللغة الطبيعية، مما يحقق تحسينًا نسبيًا يصل إلى 20%. في حين أن أحدث تقنيات إعادة الضبط تركز بشكل رئيسي على كيفية تطبيق التقليل من التحيز (الترقية) عندما تكون البيانات نادرة، فإن Co-Tuning يعمل ليس فقط على المجموعات المتوسطة الحجم (100 عينة لكل فئة)، بل أيضًا على المجموعات الكبيرة الحجم (1000 عينة لكل فئة)، حيث لا تُظهر الطرق القائمة على التقليل من التحيز أي فائدة مقارنة بإعادة الضبط الافتراضية. ويُبنى Co-Tuning على افتراض مقبول بشكل عام، وهو أن مجموعة البيانات المستخدمة في التدريب المسبق تكون متنوعة بما يكفي، مما يشير إلى نطاق تطبيق واسع لهذا الأسلوب.