DenseASPP لتقسيم الدلالة في مشاهد الطرق

التحليل الدلالي للصورة هو مهمة أساسية لفهم مشهد الشارع في القيادة الذاتية، حيث يتم تصنيف كل بكسل في صورة عالية الدقة إلى مجموعة من العلامات الدلالية. على عكس السيناريوهات الأخرى، تُظهر الكائنات في مشهد القيادة الذاتية تغيرات كبيرة في الحجم، مما يفرض تحديات كبيرة على تمثيل الميزات عالية المستوى، بحيث يجب تشفير معلومات متعددة المقياس بشكل صحيح. ولحل هذه المشكلة، تم تقديم الت convolution الأتروسية (atrous convolution) [Deeplabv1] لتوليد ميزات ذات مجال استقبال أكبر دون التضحية بدقة المساحة. وبنيت على أساس الت convolution الأتروسية، تم اقتراح تجميع مساحي أتروسي (Atrous Spatial Pyramid Pooling - ASPP) [Deeplabv2] لدمج مجموعة من الميزات المُحَوَّلة باستخدام معدلات تمدد مختلفة في تمثيل ميزة نهائي. وعلى الرغم من أن ASPP قادر على إنتاج ميزات متعددة المقياس، فإننا نرى أن دقة الميزة على محور المقياس ليست كافية في سياق القيادة الذاتية. ولحل هذه المشكلة، نقترح تجميع مساحي أتروسي متصل بشكل كثيف (Densely connected Atrous Spatial Pyramid Pooling - DenseASPP)، الذي يربط مجموعة من طبقات الت convolution الأتروسية بطريقة كثيفة، بحيث يُنتج ميزات متعددة المقياس التي لا تغطي مدى أكبر من المقياس فحسب، بل تغطي هذا المدى بكثافة عالية أيضًا، دون زيادة كبيرة في حجم النموذج. وقد تم تقييم DenseASPP على معيار مشهد الشارع Cityscapes [Cityscapes]، وحقق أداءً متفوقًا على مستوى التقنيات الحالية.