شبكات ثنائية الدقة العميقة لتمييز معاني المشاهد الطرقية بشكل دقيق وفوري

التمييز الدلالي هو تقنية أساسية لمركبات القيادة الذاتية لفهم المشاهد المحيطة. الأداء المتميز للنماذج الحديثة يأتي عادة على حساب عمليات حسابية ثقيلة ووقت استدلال طويل، وهو ما لا يمكن تحمله في القيادة الذاتية. من خلال استخدام هياكل خفيفة (مُشفر-مُفكك أو مسارين) أو الاستدلال على صور ذات دقة منخفضة، تحقق الطرق الحديثة تحليل مشهد سريع للغاية، حتى تعمل بمعدل أكثر من 100 إطار في الثانية على بطاقة معالجة الرسومات GPU واحدة من نوع 1080Ti. ومع ذلك، لا يزال هناك فجوة كبيرة في الأداء بين هذه الطرق الزمنية الحقيقية والنماذج المستندة إلى الهياكل الموسعة. لمعالجة هذه المشكلة، اقترحنا سلسلةً من الهياكل الفعالة المصممة خصيصًا للتمييز الدلالي الزمني الحقيقي. تتكون الشبكات الثنائية الدقيقة ذات الدقة المزدوجة (DDRNets) المقترحة من فرعين عميقين يتم بينهما العديد من التراصات الثنائية. بالإضافة إلى ذلك، صممنا مستخرجًا جديدًا للمعلومات السياقية يُسمى وحدة تجميع الهرم العميق (DAPPM) لتوسيع المجالات المستقبلة الفعالة ودمج السياق متعدد المقاييس بناءً على الخرائط المميزة ذات الدقة المنخفضة. حققت طريقتنا توازنًا جديدًا بين الدقة والسرعة يعتبر الأفضل حتى الآن على كلٍ من مجموعة بيانات Cityscapes ومجموعة بيانات CamVid. بشكل خاص، على بطاقة معالجة الرسومات GPU واحدة من نوع 2080Ti، يحقق DDRNet-23-slim معدل تقاطع فوق الاتحاد mIoU بنسبة 77.4% بمعدل 102 إطار في الثانية على مجموعة اختبار Cityscapes ونسبة mIoU بنسبة 74.7% بمعدل 230 إطار في الثانية على مجموعة اختبار CamVid. باستخدام التقنيات المعززة الشائعة في الاختبار، تكون طريقتنا أفضل من معظم النماذج الرائدة وتتطلب حسابات أقل بكثير. الكود والنموذج المدرب متاحان عبر الإنترنت.