المحول المُرشَد بالمعنى والصورة لتعلم الفئة التدرّجي القليل العينات

لقد لاقت التعلم التدرجي للصفوف القليلة (FSCIL) اهتمامًا واسعًا في مجالات مختلفة مؤخرًا. تعتمد الطرق الحالية لـ FSCIL بشكل كبير على قوة البناء المميز (feature backbone) المُدرّب مسبقًا على الفئات الأساسية. في السنوات الأخيرة، حققت أنواع مختلفة من نماذج Transformer تقدمًا كبيرًا في تعلم تمثيل الميزات في مجالات واسعة. ومع ذلك، لم تُحقق تقدمًا ملحوظًا في سياقات FSCIL مقارنة بالنتائج المُنتظرة في المجالات الأخرى. في هذه الورقة، نطور نموذجًا مُوجهًا بالسياق البصري والمعنوي (SV-T) لتعزيز قدرة البناء المميز المُدرّب مسبقًا على استخراج الميزات في الفئات التدرجية. بشكل محدد، نستخدم أولًا التسميات البصرية (الصور) المُقدمة من الفئات الأساسية لضبط تحسين نموذج Transformer. ثم، نُدخل مشفرًا نصيًا لتقديم تسميات معنوية (نصية) تلقائية لكل صورة من الفئات الأساسية. وأخيرًا، تُستخدم التسميات المعنوية المُنشأة لقيادة تحديث معاملات نموذج Transformer. يمكن لنموذج SV-T الاستفادة الكاملة من مزيد من معلومات التوجيه المتوفرة من الفئات الأساسية، وتعزيز مرونة التدريب للبناء المميز بشكل أكبر. والأهم من ذلك، أن SV-T هو طريقة مستقلة، ويمكن تطبيقها مباشرة على الهياكل الحالية لـ FSCIL لاستخراج تمثيلات لفئات تدرجية متنوعة. أظهرت التجارب الواسعة على ثلاث معايير، ونوعين من هياكل FSCIL، ونوعين من نماذج Transformer، تحسنًا كبيرًا في الأداء مقارنة بالأساليب الحالية الأفضل في مجال FSCIL.