ESNet: شبكة كفاءة متماثلة للتقسيم الدلالي في الوقت الحقيقي

شهدت السنوات الأخيرة تقدماً كبيراً في مجال التجزئة الدلالية باستخدام الشبكات العصبية التلافيفية العميقة (DCNNs). ومع ذلك، فإن عددًا كبيرًا من طبقات التلفيف وقنوات الميزات يجعل من التجزئة الدلالية مهمة حاسوبية ثقيلة، مما يشكل عائقًا في السيناريوهات ذات الموارد المحدودة. في هذا البحث، قمنا بتصميم شبكة متناظرة فعالة تُسمى (ESNet) لمعالجة هذه المشكلة. تتكون الشبكة بأكملها من هندسة تقريبًا متناظرة، وتتألف بشكل أساسي من سلسلة من وحدات التلفيف المفككة (FCU) ونظيراتها المتوازية (PFCU). من ناحية، تعتمد وحدة FCU على التلفيف المفكك ذو البعد الواحد الذي يتم استخدامه على نطاق واسع في الطبقات الباقية. ومن ناحية أخرى، تستعمل النسخة المتوازية استراتيجية تحويل-تقسيم-تحويل-دمج في تصميم الوحدة الباقية، حيث يقوم الفرع المقسّم باستخدام تفتيحات التلفيف بمعدلات مختلفة لتوسيع المجال المرئي. يحتوي نموذجنا على حوالي 1.6 مليون معلمة، ويمكن تنفيذه بمعدل أكثر من 62 إطارًا في الثانية على بطاقة معالجة الرسومات GTX 1080Ti单车. 请注意,最后一句中的“单车”似乎是误输入,正确的应该是“GPU”。因此,我将其修正为:يحتوي نموذجنا على حوالي 1.6 مليون معلمة، ويمكن تنفيذه بمعدل أكثر من 62 إطارًا في الثانية على بطاقة معالجة الرومافيات GTX 1080Ti (GPU). التجارب أثبتت أن طريقتنا تحقق أفضل النتائج الحالية فيما يتعلق بالتوازن بين السرعة والدقة للتجزئة الدلالية الفورية على مجموعة بيانات CityScapes.