HyperAIHyperAI
منذ 16 أيام

تحسين قابلية الانتقال للنماذج القائمة على التعلم ذاتيًا من خلال التحسين الدقيق لمعيار التطبيع بالدُفعات

{Álvaro García-Martín, Pablo Carballeira, Marcos Escudero-Viñolo, Kirill Sirotkin}
الملخص

تُعدّ كثرة البيانات غير المُعلّمة والتقدّم المتسارع في تعلّم ذاتي (Self-Supervised Learning - SSL) عاملاً رئيسيًا في جعل هذه المنهجية الخيار المفضّل في العديد من سيناريوهات التحويل التعلّمي (Transfer Learning). وبسبب التطوّر السريع والمستمر في مناهج SSL، أصبحت الممارسين اليوم يواجهون كمّاً هائلاً من النماذج التي تم تدريبها لمهام/مجالات محددة، مما يستدعي الحاجة إلى طريقة قادرة على تقدير أداء التحويل على مهام/مجالات جديدة. عادةً ما تؤدّي وظيفة هذا المُقدّر دور التحديد الخطي (Linear Probing)، الذي يُدرّب تصنيفًا خطيًا على رأس مُستخرج الميزات المجمّد. في هذه الدراسة، نتناول عيبًا جوهريًا في التحديد الخطي: فهو لا يمتلك ارتباطًا قويًا جدًا بأداء النماذج التي تم تحسينها بشكل متكامل (end-to-end)، والذي يُعدّ في كثير من الأحيان الهدف النهائي في التحويل التعلّمي، وفي بعض الحالات يُقدّر بشكل كارثي إمكانات النموذج. نقترح طريقة لاستخلاص مهمة بديلة (Proxy Task) أفضل بشكل ملحوظ من خلال فك تجميد طبقات التطبيع بالدفعة (Batch Normalization) وتحسينها معًا بشكل مشترك مع رأس التصنيف. وبتكلفة تدريب إضافية لا تتجاوز 0.16% من عدد مُعاملات النموذج (في حالة ResNet-50)، نحصل على مهمة بديلة تتميز بـ (أ) ارتباط أقوى بأداء التحسين المتكامل، (ب) تحسين أداء التحديد الخطي في سيناريوهات التعلّم القائم على عدد كبير من الأمثلة (many-shot) وعدد قليل من الأمثلة (few-shot)، و(ج) في بعض الحالات، تفوق كلا من التحديد الخطي والتحسين المتكامل، وتحقق أداءً يُصنّف ضمن أحدث المستويات (state-of-the-art) على مجموعة بيانات طبية. وأخيرًا، نحلّل ونناقش التغيرات التي تُحدثها عملية تدريب طبقات التطبيع بالدفعة في توزيعات الميزات، والتي قد تكون السبب وراء التحسين في الأداء. يُمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/vpulab/bn_finetuning.

تحسين قابلية الانتقال للنماذج القائمة على التعلم ذاتيًا من خلال التحسين الدقيق لمعيار التطبيع بالدُفعات | أحدث الأوراق البحثية | HyperAI