BiSeNet V2: شبكة مزدوجة مع تجميع موجه للفصل الدلالي الزمني الفعلي

التفاصيل على المستوى المنخفض والمعاني على المستوى العالي كلاهما ضروريان لمهام التجزئة الدلالية. ومع ذلك، لتسريع استنتاج النموذج، تُفضّل الطرق الحالية تقريبًا التضحية بالتفاصيل المكانية على المستوى المنخفض، مما يؤدي إلى انخفاض ملحوظ في الدقة. نقترح معالجة هذه التفاصيل المكانية والمعاني الفئوية بشكل منفصل لتحقيق دقة عالية وكفاءة عالية في التجزئة الدلالية في الزمن الفعلي. ولتحقيق ذلك، نقترح معمارية فعّالة وفعالة تحقق توازنًا جيدًا بين السرعة والدقة، وتُسمّى شبكة التجزئة الثنائية (BiSeNet V2). تتضمن هذه المعمارية: (i) فرع التفاصيل، الذي يتميز بقنوات واسعة وطبقات سطحية لالتقاط التفاصيل على المستوى المنخفض وإنتاج تمثيل مميزات عالي الدقة؛ (ii) فرع الدلالة، الذي يتميز بقنوات ضيقة وطبقات عميقة للحصول على السياق الدلالي على المستوى العالي. ويُعد فرع الدلالة خفيف الوزن بفضل تقليل سعة القنوات واستراتيجية التناقص السريع. علاوة على ذلك، صممنا طبقة تجميع موجهة لتعزيز الاتصال المتبادل ودمج نوعي التمثيلات المميزة. بالإضافة إلى ذلك، طوّرنا استراتيجية تدريب مُعززة لتحسين أداء التجزئة دون أي تكلفة إضافية أثناء الاستنتاج. تُظهر التقييمات الكمية والكيفية الواسعة أن المعمارية المقترحة تتفوق على عدد من الطرق الرائدة في التجزئة الدلالية في الزمن الفعلي. وبشكل خاص، بالنسبة لصورة دخل بحجم 2048×1024، نحقّق 72.6% من متوسط مقياس IoU على مجموعة بيانات Cityscapes في الاختبار، وبسرعة تصل إلى 156 إطارًا في الثانية (FPS) على بطاقة NVIDIA GeForce GTX 1080 Ti واحدة، وهي أسرع بشكل ملحوظ من الطرق الحالية، مع تحقيق دقة أعلى في التجزئة.