التعلم العميق النقلية غير الثنائية للتصنيف الصوتي

المعيار الحالي لعدد من مهام الرؤية الحاسوبية باستخدام عدد محدود من الأمثلة المُدرَّسة المُوسومة هو التخصيص الدقيق (fine-tuning) من وزن مُدرَّب مسبقًا على مجموعة بيانات تصنيف صور كبيرة مثل ImageNet. تميل تطبيقات التعلم الناقل (transfer learning) وطرقه إلى أن تكون ثنائية صارمة. فنظام ما يكون إما مُدرَّبًا مسبقًا أو ليس كذلك. ويؤدي تدريب النموذج مسبقًا إما إلى تحسين الأداء، أو إلى تقليله، والأخير يُعرَّف بـ "النقل السلبي" (negative transfer). أما تطبيق تنظيم L2-SP الذي يُقلل الوزن نحو قيمه المُدرَّبة مسبقًا، فإما يُطبَّق، أو يتم تقليل جميع الوزن نحو الصفر. تعيد هذه الورقة إعادة تقييم هذه الافتراضات. وتستند توصياتنا إلى تقييم تجريبي واسع النطاق يُظهر أن تطبيق نهج غير ثنائي يمكن أن يحقق أفضل النتائج. (1) تحقيق أفضل أداء على كل مجموعة بيانات منفصلة يتطلب تعديلًا دقيقًا لعدد من معلمات التعلم الناقل التي لا تُعتبر عادةً، بما في ذلك عدد الطبقات التي يتم نقلها، ومعدلات التعلم المختلفة لكل طبقة، والتركيبات المختلفة بين تنظيم L2-SP وتنظيم L2. (2) يمكن تحقيق أفضل الممارسات باستخدام عدد من المقاييس التي تقيس مدى ملاءمة الوزن المُدرَّب مسبقًا لمجموعة البيانات المستهدفة، وذلك لتوجيه اختيار المعلمات المثلى. ونقدّم أساليب للتعلم الناقل غير الثنائي، بما في ذلك دمج تنظيم L2-SP وتنظيم L2، وتنفيذ عمليات بحث غير تقليدية في معلمات التخصيص الدقيق. وأخيرًا، نقترح قواعد توجيهية لتحديد المعلمات المثلى لتعلم الناقل. وتدعم النتائج النهائية فوائد استخدام النهج غير الثنائي، حيث تقترب من أو تتجاوز الأداء المتفوّق في مجالات متعددة، على مهام كانت في الماضي أكثر صعوبة على التعلم الناقل.