تحليل مشهد RGB-D متعدد المهام بكفاءة للبيئات الداخلية

يُعد فهم المشهد الدلالي ضروريًا للوكلاء المتنقلين العاملين في بيئات متنوعة. وعلى الرغم من أن التجزئة الدلالية توفر بالفعل كمية كبيرة من المعلومات، إلا أن التفاصيل المتعلقة بالكائنات الفردية وكذلك الصورة العامة للمشهد تُغيب، رغم أنها مطلوبة لعدد كبير من التطبيقات الواقعية. ومع ذلك، فإن حل المهام المتعددة بشكل منفصل يُعد مكلفًا، ولا يمكن إنجازه في الوقت الفعلي نظرًا للقدرات المحدودة في الحوسبة والبطارية على الأنظمة المتنقلة. في هذا البحث، نقترح نموذجًا فعّالًا متعدد المهام لتحليل المشهد باستخدام صور RGB-D (EMSANet)، الذي يُنفّذ بشكل متزامن التجزئة الدلالية والتجزئة الواقعة (التجزئة الشاملة)، وتقدير اتجاه الكائنات، وتصنيف المشهد. ونُظهر أن جميع هذه المهام يمكن إنجازها باستخدام شبكة عصبية واحدة في الوقت الفعلي على منصة متنقلة دون التقليل من الأداء – بل على العكس، تُستفيد المهام الفردية من بعضها البعض. ولتقييم نهجنا متعدد المهام، قمنا بتوسيع تسميات مجموعتي البيانات الشائعة لبيئات داخلية باستخدام صور RGB-D، وهما NYUv2 وSUNRGB-D، لتشمل التجزئة الواقعة وتقدير الاتجاه. إلى حد معرفتنا، نحن أول من يقدم نتائج في بيئة متعددة المهام الشاملة لتحليل المشاهد الداخلية على مجموعتي بيانات NYUv2 وSUNRGB-D.