HyperAIHyperAI
منذ 2 أشهر

شبكات البقايا بدقة كاملة للفصل الدلالي في مشاهد الشوارع

Tobias Pohlen; Alexander Hermans; Markus Mathias; Bastian Leibe
شبكات البقايا بدقة كاملة للفصل الدلالي في مشاهد الشوارع
الملخص

التمييز الدلالي للصورة هو مكون أساسي في أنظمة القيادة الذاتية الحديثة، حيث يعتبر فهم دقيق للمشهد المحيط ضروريًا للتوجيه ووضع خطط العمل. تعتمد أحدث الأساليب في التمييز الدلالي للصورة على شبكات تم تدريبها مسبقًا والتي طورت في البداية لتصنيف الصور ككل. رغم أن هذه الشبكات تظهر أداءً استثنائيًا في التعرف (أي ما هو مرئي؟)، إلا أنها تعاني من نقص في دقة التحديد المكاني (أي أين يقع شيء ما بدقة؟). لذلك، يجب تنفيذ خطوات معالجة إضافية للحصول على أقنعة تقسيم دقيقة على مستوى البكسل بحل دقيق للصورة بالكامل. لحل هذه المشكلة، نقترح هندسة جديدة مشابهة لهندسة ResNet تتميز بأداء قوي في التحديد المكاني والتعرف. نجمع بين السياق متعدد المقاييس والدقة على مستوى البكسل باستخدام مسارين معالجة داخل شبكتنا: المسار الأول يحمل المعلومات بحل دقيق للصورة بالكامل، مما يمكّن من الالتزام الدقيق بحدود الأقسام. أما المسار الثاني فيخضع لمجموعة من عمليات التجميع للحصول على خصائص قوية للتعرف. يتم ربط المسارين بحل دقيق للصورة بالكامل باستخدام الفروقات المتبقية (residuals). بدون خطوات معالجة إضافية وبلا تدريب مسبق، تحقق طريقتنا درجة تقاطع فوق الاتحاد (intersection-over-union) بنسبة 71.8% على مجموعة بيانات Cityscapes.

شبكات البقايا بدقة كاملة للفصل الدلالي في مشاهد الشوارع | أحدث الأوراق البحثية | HyperAI