HyperAIHyperAI
منذ 16 أيام

على التحيّز النسيجي للتصنيف الشبكي العصبي التكراري القائم على عدد قليل من الأمثلة

Reza Azad, Abdur R Fayjie, Claude Kauffman, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz
على التحيّز النسيجي للتصنيف الشبكي العصبي التكراري القائم على عدد قليل من الأمثلة
الملخص

على الرغم من الاعتقاد الأولي بأن الشبكات العصبية التلافيفية (CNNs) تُحفَّز بالأشكال لأداء مهام التعرف البصري، فإن الأدلة الحديثة تشير إلى أن التحيز نحو النسيج في الشبكات العصبية التلافيفية يُنتج نماذج أكثر كفاءة عند التدريب على مجموعات بيانات تدريب كبيرة ومُعلَّمة. يتعارض هذا مع التحيز الوجداني في القشرة البصرية البشرية، التي تُظهر تفضيلًا أقوى لمكونات الشكل. قد يفسر الفرق الوجداني سبب تمكن الشبكات العصبية التلافيفية من تحقيق أداء يعادل الأداء البشري عند توفر مجموعات بيانات تدريب كبيرة ومُعلَّمة، ولكن ينخفض أداءها بشكل كبير في سيناريوهات البيانات القليلة التسمية، مثل التجزئة الشكلية القليلة الأمثل (few-shot semantic segmentation). ولإزالة التحيز نحو النسيج في سياق التعلم القليل، نقترح معمارية جديدة تدمج مجموعة من العمليات المعروفة بـ "مختلفات غاوسيان" (Difference of Gaussians - DoG) بهدف تقليل المكونات المحلية عالية التردد في فضاء الميزات. يؤدي هذا إلى إنتاج مجموعة من خرائط الميزات المُعدَّلة، حيث تنخفض المكونات عالية التردد عند قيم مختلفة لانحراف معياري لتوزيع غاوسي في المجال المكاني. وبما أن هذه العملية تُنتج خرائط ميزات متعددة لكل صورة، نستخدم شبكة تلافيفية ثنائية الاتجاه من نوع الذاكرة الطويلة والقصيرة (bi-directional convolutional long-short-term-memory) لدمج تمثيلات متعددة المقياس بشكل فعّال. أجرينا تجارب واسعة على ثلاث معايير معروفة للتجزئة القليلة الأمثل — Pascal i5 و COCO-20i و FSS-1000 — ونُظهر أن طريقتنا تتفوّق على أحدث النماذج في معيارين من المعايير الثلاثة تحت نفس الشروط. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/rezazad68/fewshot-segmentation