تحرير قوة التuning المتقدم للعمومية بقليل من الأمثلة من خلال الخبراء المترابطين النحيفين

الإنجازات الأخيرة تشير إلى أن تعديل النماذج الأساسية بفعالية من حيث المعلمات هو الطريقة الأكثر تقدماً لنقل التعلم في مجال الرؤية، مما يحل محل الأدبيات الغنية للبدائل مثل التعلم المتعدد. في محاولة للاستفادة من أفضل ما في كلا العالمين، يُقدم التعديل المتعدد مرحلة تحسين لاحقة للنماذج الأساسية، ولكن حتى الآن أظهر نجاحاً محدوداً فقط وكان يميل إلى الأداء الضعيف في المهام خارج التوزيع (OOD).في هذا البحث، نقدم طريقة جديدة تُسمى التعديل المتعدد النادر (SMAT)، وهي طريقة مستوحاة من نهج خلط الخبراء النادر وتم تدريبها على عزل مجموعات فرعية من المعلمات المدربة مسبقاً بشكل آلي لكل مهمة. تمكنت SMAT بنجاح من التغلب على حساسية OOD وتحقيق الوعد بتعزيز قدرات نقل التعلم للنماذج الأساسية في مجال الرؤية بما يتجاوز تعديل المعلمات الفعال.لقد أنشأنا نتائج جديدة هي الأكثر تقدماً على تركيبة صعبة لمجموعة بيانات متعددة معززة بمهمات OOD إضافية في كل من الإعدادات التي لا تتطلب أي بيانات (zero-shot) وفي الإعدادات القائمة على التدرج (gradient-based). بالإضافة إلى ذلك، نقدم تحليلًا شاملًا لأفضلية الأنماط النادرة التي يتم تعلمها على الأنماط التي يتم تصميمها باليد بالنسبة لطرق الخبراء النادرة وأهمية مستوى الندرة الحاسمة في موازنة الأداء بين البيانات ضمن التوزيع وخارج التوزيع.رمزنا البرمجي متاح بشكل عام.