شبكة Fast-SCNN: شبكة التجزئة الدلالية السريعة

إطار المُشفِّر-المُفكِّك (Encoder-Decoder) هو الأحدث في مجال تقسيم الصور الدلالي غير المباشر. مع زيادة الاعتماد على النظم المستقلة، أصبح الحساب الفوري مطلوباً بشكل متزايد. في هذا البحث، نقدم شبكة عصبية تلافيفية سريعة للتقسيم (Fast-SCNN)، وهي نموذج تقسيم دلالي أسرع من الوقت الفعلي يعمل على بيانات صور ذات دقة عالية (1024x2048 بكسل) ويناسب الحساب الكفؤ على الأجهزة المدمجة ذات الذاكرة المنخفضة. بناءً على الأساليب ثنائية الفروع الموجودة لتسريع التقسيم، نقدم وحدة "التعلم لتخفيض الحجم" الخاصة بنا التي تقوم بحساب الخصائص الأولية لمجموعة فروع بدقة مختلفة في آن واحد. يجمع شبكتنا بين التفاصيل المكانية عند الدقة العالية والخصائص العميقة المستخرجة عند الدقة المنخفضة، مما يؤدي إلى دقة تبلغ 68.0% من تقاطع الوسط على الاتحاد عند معدل 123.5 إطاراً في الثانية على مجموعة بيانات Cityscapes. كما نوضح أن التدريب السابق على نطاق واسع ليس ضرورياً. نحن نتحقق من صحة مقاييسنا بشكل شامل عبر التجارب باستخدام التدريب السابق لـ ImageNet والبيانات المرتبة بشكل خشن من Cityscapes. وأخيراً، نظهر أن الحساب يمكن أن يكون أسرع مع نتائج تنافسية عند استخدام الإدخالات المشتتة دون أي تعديلات على الشبكة.