RFBNet: شبكات عميقة متعددة الأوضاع مع كتل دمج البواقي لتقسيم المعنى في الصور RGB-D

تستخدم طرق التجزئة الدلالية RGB-D عادةً مُشفِّرين مستقلين لاستخراج الخصائص من بيانات RGB والعمق. ومع ذلك، فإن هناك نقصًا في آلية دمج فعالة تربط بين المُشفِّرين بهدف استغلال المعلومات التكميلية من الوسائط المتعددة بشكل كامل. يقترح هذا البحث هيكل دمج تفاعلي جديد من الأسفل إلى الأعلى لنمذجة الارتباطات بين المُشفِّرين. يُدخل الهيكل هذا تيار تفاعل لربط المُشفِّرين. لا يقتصر دور هذا التيار على جمع الخصائص الخاصة بالوسائط من المُشفِّرين بشكل تدريجي فحسب، بل يقوم أيضًا بحساب الخصائص التكميلية لهم. لتجسيد هذا الهيكل، يقترح البحث كتلة دمج متبقية (RFB) لصياغة ارتباطات المُشفِّرين. تتكون الكتلة RFB من وحدتين متبقية ووحدة دمج واحدة مع آلية بوابة. تقوم هذه الكتلة بتعلم الخصائص التكميلية للمُشفِّرين الخاصين بالوسائط واستخراج خصائص خاصة بالوسائط بالإضافة إلى الخصائص العابرة للوسائط. بناءً على الكتلة RFB، يقدم البحث شبكات عميقة متعددة الوسائط للتجزئة الدلالية RGB-D تسمى RFBNet. أثبتت التجارب على قاعدتي بيانات أن نمذجة الارتباطات كانت فعالة وأن RFBNet حققت أداءً رائدًا في المجال (state-of-the-art).