HyperAIHyperAI
منذ 4 أشهر

تحرير قوة التuning المتقدم للعمومية بقليل من الأمثلة من خلال الخبراء المترابطين النحيفين

Chen, Shengzhuang ; Tack, Jihoon ; Yang, Yunqiao ; Teh, Yee Whye ; Schwarz, Jonathan Richard ; Wei, Ying
تحرير قوة التuning المتقدم للعمومية بقليل من الأمثلة من خلال
الخبراء المترابطين النحيفين
الملخص

الإنجازات الأخيرة تشير إلى أن تعديل النماذج الأساسية بفعالية من حيث المعلمات هو الطريقة الأكثر تقدماً لنقل التعلم في مجال الرؤية، مما يحل محل الأدبيات الغنية للبدائل مثل التعلم المتعدد. في محاولة للاستفادة من أفضل ما في كلا العالمين، يُقدم التعديل المتعدد مرحلة تحسين لاحقة للنماذج الأساسية، ولكن حتى الآن أظهر نجاحاً محدوداً فقط وكان يميل إلى الأداء الضعيف في المهام خارج التوزيع (OOD).في هذا البحث، نقدم طريقة جديدة تُسمى التعديل المتعدد النادر (SMAT)، وهي طريقة مستوحاة من نهج خلط الخبراء النادر وتم تدريبها على عزل مجموعات فرعية من المعلمات المدربة مسبقاً بشكل آلي لكل مهمة. تمكنت SMAT بنجاح من التغلب على حساسية OOD وتحقيق الوعد بتعزيز قدرات نقل التعلم للنماذج الأساسية في مجال الرؤية بما يتجاوز تعديل المعلمات الفعال.لقد أنشأنا نتائج جديدة هي الأكثر تقدماً على تركيبة صعبة لمجموعة بيانات متعددة معززة بمهمات OOD إضافية في كل من الإعدادات التي لا تتطلب أي بيانات (zero-shot) وفي الإعدادات القائمة على التدرج (gradient-based). بالإضافة إلى ذلك، نقدم تحليلًا شاملًا لأفضلية الأنماط النادرة التي يتم تعلمها على الأنماط التي يتم تصميمها باليد بالنسبة لطرق الخبراء النادرة وأهمية مستوى الندرة الحاسمة في موازنة الأداء بين البيانات ضمن التوزيع وخارج التوزيع.رمزنا البرمجي متاح بشكل عام.

تحرير قوة التuning المتقدم للعمومية بقليل من الأمثلة من خلال الخبراء المترابطين النحيفين | الأوراق البحثية | HyperAI