المحولات البصرية واللغوية المُدرَّبة مسبقًا هي مُتعلِّمون تدريجيون بقليل من الأمثلة

التعلم التدرجي للتصنيفات بعينة قليلة (FSCIL) هو مهمة تتطلب من النموذج تعلُّم فئات جديدة بشكل تدريجي دون نسيان، مع توفر عدد قليل جدًا من العينات لكل فئة. يواجه FSCIL تحديين رئيسيين: النسيان الكارثي والانحراف الزائد (overfitting)، وقد دفع هذان التحديان الدراسات السابقة إلى الاعتماد بشكل أساسي على نماذج بسيطة مثل ResNet-18. وعلى الرغم من أن قدرتها المحدودة تُقلل من مشكلتي النسيان والانحراف، إلا أنها تؤدي إلى نقل معرفي غير كافٍ خلال الجلسات التدريبية القليلة العينات. في هذه الورقة، نحن ندعي أن النماذج الكبيرة مثل نماذج الرؤية واللغة المُدرَّبة مسبقًا على مجموعات بيانات كبيرة يمكن أن تكون متعلِّمين تدرجيين بعينة قليلة ممتازين. ولتحقيق ذلك، نقترح إطارًا جديدًا لـ FSCIL يُسمى PriViLege، وهو نموذج مُدرَّب مسبقًا للرؤية واللغة مع وظائف تحفيز (prompting) ونقل المعرفة. يعالج إطارنا بشكل فعّال التحديات المرتبطة بالنسيان الكارثي والانحراف الزائد في النماذج الكبيرة من خلال تقنية جديدة تُسمى "ضبط المعرفة المُدرَّبة مسبقًا" (PKT)، بالإضافة إلى خسارة مُستندة إلى الانتروبيا وLoss مُستندة إلى نقل المعرفة الشكلية. أظهرت النتائج التجريبية أن PriViLege يتفوّق بشكل كبير على أفضل الطرق الحالية، بفارق كبير، مثل +9.38% في CUB200، و+20.58% في CIFAR-100، و+13.36% في miniImageNet. يمكن الوصول إلى كود التنفيذ الخاص بنا عبر الرابط: https://github.com/KHU-AGI/PriViLege.