دفاعًا عن هياكل ImageNet المدربة مسبقًا للفصل الدلالي في الوقت الفعلي للصور المرورية

النجاح الأخير في طرق تقسيم الدلالة (semantic segmentation) على مجموعات بيانات القيادة الصعبة قد أثار اهتمام العديد من المجالات ذات الصلة. تشمل العديد من هذه التطبيقات التنبؤ الفوري على المنصات المتنقلة مثل السيارات والطائرات بدون طيار وأنواع مختلفة من الروبوتات. يعتبر الإعداد الفوري تحديًا بسبب التعقيد الحاسوبي الاستثنائي المصاحب له. عالجت العديد من الأعمال السابقة هذا التحدي باستخدام هياكل خفيفة الوزن مخصصة، والتي تقلل من التعقيد الحاسوبي عن طريق تقليل العمق والعرض وسعة الطبقات مقارنة بهياكل الأغراض العامة. نقترح نهجًا بديلًا يحقق أداءً أفضل بكثير عبر نطاق واسع من الميزانيات الحاسوبية. أولاً، نعتمد على هيكل عام خفيف الوزن كمحرك التعرف الرئيسي. ثانياً، نستفيد من التضخيم الخفيف الوزن مع الاتصالات الجانبية باعتبارها الحل الأكثر فعالية من حيث التكلفة لاستعادة دقة التنبؤ. وأخيراً، نقترح توسيع مجال الاستقبال عن طريق دمج الخصائص المشتركة عند حلول متعددة بدقة جديدة. أظهرت التجارب على عدة مجموعات بيانات للقيادة أن النهج المقترح يتمتع بميزة كبيرة، سواء باستخدام معلمات تم تدريبها مسبقًا على ImageNet أو عند تعلمنا من الصفر. يوفر تقديم اختبار Cityscapes الخاص بنا المسمى SwiftNetRN-18 نسبة تقاطع فوق الوحدة (MIoU) تبلغ 75.5٪ ويحقق معدل 39.9 هرتز على صور بحجم 1024x2048 على بطاقة GTX1080Ti.