HyperAIHyperAI
منذ 17 أيام

إعادة التفكير في التعميم في التصنيف القائم على أمثلة قليلة

Markus Hiller, Rongkai Ma, Mehrtash Harandi, Tom Drummond
إعادة التفكير في التعميم في التصنيف القائم على أمثلة قليلة
الملخص

تُعدّ التسميات على مستوى الصورة وحدها غير كافية لوصف مجموعة صغيرة غالبًا من محتوى الصورة، خصوصًا عندما تُمثّل مشاهد واقعية معقدة. بينما قد يكون هذا مقبولًا في العديد من سيناريوهات التصنيف، فإنه يُشكّل تحديًا كبيرًا في التطبيقات التي تختلف فيها مجموعات الفئات بشكل كبير بين زمن التدريب وزمن الاختبار. في هذه الورقة، نُجري تحليلًا أعمق لآثار هذا التحدي في سياق التعلم القليل (few-shot learning). من خلال تقسيم العينات المدخلة إلى قطع صغيرة (patches) وتمثيلها باستخدام نماذج المحولات البصرية (Vision Transformers)، نتمكن من إقامة تطابقات معنوية بين المناطق المحلية عبر الصور، بغض النظر عن الفئة المرتبطة بكل صورة. ثم نحدد التمثيلات المفيدة للغاية للقطع (patch embeddings) الخاصة بالمهام الحالية كدالة تابعة لمجموعة الدعم (support set) من خلال تحسين آني (online optimization) أثناء الاستدلال، مما يوفر أيضًا تفسيرًا بصريًا لما "يُعدّ الأكثر أهمية" في الصورة. ونتبنّى التقدم الأخير في تدريب الشبكات دون إشراف من خلال نمذجة الصور المُحجبة (masked image modelling)، بهدف التغلب على نقص التسميات الدقيقة، وتعلم البنية الإحصائية الأعمق للبيانات، مع تجنّب التأثير السلبي الناتج عن التسميات على مستوى الصورة، المعروف أيضًا بـ "انهيار الإشراف" (supervision collapse). أظهرت النتائج التجريبية كفاءة نهجنا، حيث تحقّق نتائج قياسية جديدة على أربع معايير شائعة للتصنيف القليل (few-shot classification) في سيناريوهات 5-shot و1-shot.