HyperAIHyperAI
منذ 11 أيام

MSDNet: منفذ متعدد المقياس للتصنيف الدلالي القائم على أمثلة قليلة من خلال التوجيه بالمحور المبني على نموذج التحويل

Fateh, Amirreza, Mohammadi, Mohammad Reza, Motlagh, Mohammad Reza Jahed
MSDNet: منفذ متعدد المقياس للتصنيف الدلالي القائم على أمثلة قليلة من خلال التوجيه بالمحور المبني على نموذج التحويل
الملخص

يُعالج التجزئة الدلالية القائمة على عدد قليل من الأمثلة (Few-shot Semantic Segmentation) تحديًا يتمثل في تجزئة الكائنات في الصور الاستقصائية باستخدام عدد محدود جدًا من الأمثلة المُعلّمة. ومع ذلك، غالبًا ما تُجبر الطرق الرائدة السابقة على التخلي عن السمات الدلالية المحلية المعقدة أو تعاني من تعقيد حسابي عالٍ. لمعالجة هذه التحديات، نقترح إطارًا جديدًا للتجزئة الدلالية القائمة على عدد قليل من الأمثلة، مبنيًا على بنية Transformer. يُقدّم نهجنا مُفكّكًا مكانيًا (spatial transformer decoder) ووحدة إنشاء قناع سياقي (contextual mask generation module) لتحسين الفهم العلاقة بين الصور الداعمة والصور الاستقصائية. علاوةً على ذلك، نُدخل مُفكّكًا متعدد المقياس (multi-scale decoder) لتحسين قناع التجزئة من خلال دمج السمات من مختلف الدورات الترددية بطريقة هرمية. بالإضافة إلى ذلك، يدمج نهجنا السمات العالمية من مراحل متوسطة في المُشفّر (encoder) لتعزيز الفهم السياقي، مع الحفاظ على هيكل خفيف الوزن لتقليل التعقيد. يُمكّن هذا التوازن بين الأداء والكفاءة من تحقيق نتائج تنافسية على مجموعات بيانات المعيار مثل PASCAL-5^i وCOCO-20^i في بيئة التعلم 1-shot و5-shot. وبشكل لافت، يُظهر نموذجنا الذي يحتوي فقط على 1.5 مليون معلمة أداءً تنافسيًا مع التغلب على القيود الموجودة في الطرق الحالية.https://github.com/amirrezafateh/MSDNet