RedNet: شبكة الترميز-التفكيك الباقية لتقسيم الدلالات للصور RGB-D الداخلية

التمييز الدلالي للبيئة الداخلية كان دائمًا مهمة صعبة في رؤية الحاسوب. في هذا البحث، نقترح هندسة مُشفِّر-مُفكِّك متبقية تعتمد على الصور ثنائية الأبعاد والعمق (RGB-D)، والتي أطلقنا عليها اسم RedNet، لإجراء التمييز الدلالي للبيئة الداخلية باستخدام الصور RGB-D. في RedNet، يتم تطبيق الوحدة المتبقية ككتلة بناء أساسية في كل من المُشفِّر والمُفكِّك، ويتم استخدام الاتصال المباشر (skip-connection) للتخطي بين الخصائص المكانية للمُشفِّر والمُفكِّك. من أجل دمج معلومات العمق للمشهد، تم بناء هيكل دمج يقوم بإجراء الاستدلال على الصورة ثنائية الأبعاد (RGB) وصورة العمق بشكل منفصل، ثم يدمج خصائصهما عبر عدة طبقات. لتحسين تحسين معلمات الشبكة بكفاءة، اقترحنا مخطط تدريب "الإشراف الهرمي" (pyramid supervision)، والذي يطبق التعلم بالإشراف على طبقات مختلفة في المُفكِّك للتعامل مع مشكلة اختفاء التدرجات (gradients vanishing). أظهرت نتائج التجارب أن RedNet المقترحة (ResNet-50) حققت دقة mIoU رائدة في مجالها بلغت 47.8% على مجموعة بيانات SUN RGB-D المرجعية.