HyperAIHyperAI
منذ 16 أيام

MFNet: شبكة التجزئة ذات القليل من الأمثلة متعددة الفئات مع تعلم القياسات حسب البكسل

Miao Zhang, Miaojing Shi, Li Li
MFNet: شبكة التجزئة ذات القليل من الأمثلة متعددة الفئات مع تعلم القياسات حسب البكسل
الملخص

في مهام التعرف البصري، تتطلب التعلم من عدد قليل من الأمثلة (few-shot learning) القدرة على تعلم فئات الكائنات باستخدام عدد قليل جدًا من الأمثلة الداعمة. وقد عاد هذا المجال إلى الاهتمام بفضل التطورات الكبيرة في التعلم العميق، وتركز معظم الدراسات الحديثة على تصنيف الصور. أما هذا العمل، فيركّز على التجزئة الدلالية من عدد قليل من الأمثلة (few-shot semantic segmentation)، وهو مجال لا يزال يُعدّ غير مُستكشف بالكامل. وغالبًا ما تقتصر التطورات الحديثة على التجزئة من عدد قليل من الأمثلة لفئة واحدة فقط. في هذا البحث، نقدّم أولًا معمارية جديدة للترميز والفك (encoding and decoding) متعددة الاتجاهات (متعددة الفئات)، والتي تُدمج بشكل فعّال معلومات الاستعلام متعددة المقاييس ومعلومات الدعم متعددة الفئات في تمثيل واحد موحد (query-support embedding). ويتم تفكيك التجزئة متعددة الفئات مباشرةً من خلال هذا التمثيل. ولتحسين دمج الميزات، نقترح آلية انتباه متعددة المستويات ضمن المعمارية، تشمل انتباهًا لتعديل ميزات الدعم، وانتباهًا لدمج المعلومات متعددة المقاييس. وأخيرًا، لتعزيز تعلّم الفضاء التمثيلي، نُدخل وحدة إضافية لتعلم المقاييس على مستوى البكسل، باستخدام خسارة ثلاثية (triplet loss) مُصاغة على مستوى التمثيل البكسي للصورة المدخلة. أظهرت التجارب الواسعة على معايير قياسية شهيرة مثل PASCAL-5i وCOCO-20i فوائد واضحة لطرقنا مقارنةً بأفضل الطرق الحالية في مجال التجزئة من عدد قليل من الأمثلة.