ERFNet: شبكة كونفولوشنية مُرَكَّبة وفعّالة ذات عوامل متبقية للفصل الدلالي في الزمن الفعلي
يُعد التصنيف الدلالي مهمة صعبة تُعالج معظم احتياجات الإدراك في المركبات الذكية (IV) بطريقة موحدة. وتمتاز الشبكات العصبية العميقة بأدائها المتميز في هذه المهمة، إذ يمكن تدريبها من البداية إلى النهاية لتصنيف دقيق لعدة فئات كائنات في صورة على مستوى البكسل. ومع ذلك، لا يزال لا يوجد توازن جيد بين الجودة العالية والموارد الحسابية في النماذج الحديثة للتصنيف الدلالي، مما يحد من تطبيقها في المركبات الحقيقية. في هذه الورقة، نقترح بنية عميقة قادرة على العمل في الزمن الفعلي مع توفير تصنيف دلالي دقيق. وتركز البنية الأساسية لنموذجنا على طبقة جديدة تستخدم الاتصالات المتبقية (residual connections) والانعكاسات المُجزَّأة (factorized convolutions) للحفاظ على الكفاءة مع الحفاظ على دقة متميزة. ويُمكن لنهجنا العمل بسرعة تزيد عن 83 إطارًا في الثانية (FPS) على وحدة معالجة رسوميات واحدة من نوع Titan X، و7 FPS على وحدة معالجة رسوميات مدمجة من نوع Jetson TX1. وتشير مجموعة شاملة من التجارب على مجموعة بيانات Cityscapes المتاحة للجمهور إلى أن نظامنا يحقق دقة مشابهة للحالة الراهنة في المجال، مع سرعة حسابية تفوق بعشرات المرات النماذج الأخرى التي تحقق أقصى دقة. ويُعد هذا التوازن الناتج نموذجًا مثاليًا لفهم المشهد في تطبيقات المركبات الذكية. يُمكن الوصول إلى الكود المصدر عبر الرابط التالي: https://github.com/Eromera/erfnet