الاختيار والدمج المتعمق للميزات للفصل الدلالي RGB-D

يمكن لبيانات العمق في المشهد أن تساعد في تحسين المعلومات البصرية لتحقيق تقسيم معنوي دقيق أكثر. ومع ذلك، لا يزال التكامل الفعّال لمعلومات متعددة الوسائط في الميزات الممثلة مشكلة مفتوحة. تستخدم معظم الدراسات الحالية الشبكات العميقة ذات التحويل التلقائي (DCNNs) لدمج معلومات متعددة الوسائط بشكل غير مباشر. ولكن مع تعميق الشبكة، قد تضيع بعض الميزات المميزة الحرجة، مما يؤدي إلى تراجع أداء التقسيم. تُقترح في هذه الدراسة شبكة موحدة وفعّالة لاختيار ودمج الميزات (FSFNet)، تتضمن وحدة تكامل متعددة الوسائط المتماثلة ذات التغذية المرتدة، والتي تُستخدم لدمج معلومات متعددة الوسائط بشكل صريح. علاوة على ذلك، تحتوي الشبكة على وحدة تفاعل مفصلة للميزات، تُستخدم للحفاظ على المعلومات التفصيلية على المستوى المنخفض أثناء عملية التمرير الأمامي للشبكة. وتشير التقييمات التجريبية إلى أن النموذج المقترح يحقق أداءً تنافسيًا مقارنةً بالطرق المتطورة حديثًا على مجموعتي بيانات عامتين.