RefineNet خفيف الوزن للتمييز الدلالي في الوقت الحقيقي

نعتبر مهمة التقطيع الدلالي للصورة بشكل فعال وكفاءة مهمة مهمة. وبشكل خاص، نقوم بتكيف معمارية قوية للتقطيع الدلالي تُسمى RefineNet إلى نموذج أكثر ضغطاً، مناسب حتى للمهام التي تتطلب أداءً في الوقت الحقيقي على مدخلات ذات دقة عالية. لهذا الغرض، نحدد الكتل الحسابية المكلفة في الإعداد الأصلي، ونقترح تعديلين يهدفان إلى تقليل عدد المعلمات والعمليات النقطية العائمة. من خلال ذلك، نحقق تقليلًا في النموذج بأكثر من الضعف مع الحفاظ على مستويات الأداء تقريبًا دون تغيير. يشهد أسرع نموذج لدينا زيادة كبيرة في السرعة من 20 إطارًا في الثانية إلى 55 إطارًا في الثانية على بطاقة GPU عامة عند استخدام مدخلات بحجم 512x512 مع أداء متوسط لتقاطع فوق الاتحاد (mean IoU) قدره 81.1% على مجموعة الاختبار لـ PASCAL VOC، بينما يظهر أنفس نموذجنا بسرعة 32 إطارًا في الثانية (من الأصل 17 إطارًا في الثانية) يحقق نسبة mean IoU قدرها 82.7% على نفس مجموعة البيانات. بدلاً من ذلك، نوضح أن نهجنا يمكن دمجه بسهولة مع شبكات التصنيف الخفيفة الوزن: حيث حققنا نسبة mean IoU قدرها 79.2% على PASCAL VOC باستخدام نموذج يحتوي فقط على 3.3 مليون معلمة ويقوم بأداء 9.3 مليار عملية نقطة عائمة.