RDFNet: دمج الميزات المتعددة المستويات المُعادَلة في RGB-D للفصل الدلالي الداخلي

في التصنيف الدلالي الداخلي متعدد الفئات باستخدام بيانات RGB-D، أظهرت الدراسات السابقة أن دمج الميزات العمقية مع الميزات RGB يُسهم في تحسين دقة التصنيف. ومع ذلك، لم تُستغل الدراسات السابقة بشكل كامل الإمكانات المتوفرة في دمج الميزات متعددة الوسائط، مثل التسلسل البسيط للميزات RGB والعمق أو توليد خرائط تقييم متوسطة لـ RGB والعمق. لتعلم أفضل طريقة لدمج الميزات متعددة الوسائط، تقدم هذه الورقة شبكة جديدة تمتد الفكرة الأساسية للتعلم المتبقّي (Residual Learning) إلى التصنيف الدلالي RGB-D. تعتمد الشبكة على امتصاص فعّال لميزات CNN متعددة المستويات من بيانات RGB-D من خلال دمج كتل دمج الميزات متعددة الوسائط وكتل تحسين الميزات متعددة المستويات. تتعلم كتل دمج الميزات الميزات المتبقية لكل من RGB والعمق، بالإضافة إلى توليد مزيجها، بهدف استغلال الخصائص التكميلية للبيانات RGB والعمق بشكل كامل. أما كتل تحسين الميزات، فهي تتعلم مزيج الميزات المدمجة من مستويات متعددة لتمكين التنبؤ بذات دقة عالية. وباستغلال الاتصالات المُسَمّاة (skip-connections) بشكل كامل، يمكن للشبكة تدريب ميزات متعددة المستويات تمييزية من كل وسائط بشكل فعّال ونظامي من البداية إلى النهاية. أظهرت التجارب الشاملة أن المعمارية المقترحة تحقق أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) في دقتها على مجموعتي بيانات RGB-D الصعبة، وهما NYUDv2 وSUN RGB-D.