إعادة التفكير في BiSeNet للتقسيم الدلالي في الوقت الحقيقي

تم إثبات أن BiSeNet هو شبكة ذات تيارين شائعة للفصل الزمني الفعلي. ومع ذلك، فإن مبدأ إضافة مسار إضافي لترميز المعلومات المكانية يستغرق وقتًا طويلاً، وقد تكون الهياكل المستعارة من المهام المدربة مسبقًا، مثل تصنيف الصور، غير فعالة لفصل الصور بسبب نقص التصميم الخاص بالمهام. للتعامل مع هذه المشكلات، نقترح هيكلًا جديدًا وفعالًا يُسمى شبكة التجميع الكثيف قصيرة الأجل (STDC network) بإزالة التكرار في الهيكل. بوجه خاص، نقلل تدريجيًا من أبعاد الخرائط الميزات واستخدام تجميعها لتمثيل الصورة، مما يشكل الوحدة الأساسية لشبكة STDC. في المحول (decoder)، نقترح وحدة تجميع التفاصيل بدمج تعلم المعلومات المكانية في الطبقات منخفضة المستوى بطريقة ذات تيار واحد. أخيرًا، يتم دمج الميزات منخفضة المستوى والميزات العميقة لتوقع النتائج النهائية للفصل. أظهرت التجارب الواسعة على مجموعة بيانات Cityscapes وCamVid فعالية طرقنا من خلال تحقيق توازن واعد بين دقة الفصل وسرعة الاستدلال. على مجموعة بيانات Cityscapes، حققنا نسبة تقاطع على الاتحاد المتوسطة (mIoU) بلغت 71.9% على مجموعة الاختبار بمعدل 250.4 صورة في الثانية على بطاقة NVIDIA GTX 1080Ti، وهو ما يعد أسرع بنسبة 45.2% من الطرق الحديثة الأخرى، كما حققنا نسبة mIoU بلغت 76.8% بمعدل 97.0 صورة في الثانية عند استدلال الصور بدقة أعلى.