شبكة تلافيفية تعتمد على الفرق البكسلية لتقسيم الدلالة RGB-D

يمكن تحسين التصنيف الدلالي لصورة RGB-D باستخدام الشبكات العصبية التلافيفية بفضل توفر بيانات العمق. وعلى الرغم من أن الكائنات لا يمكن تمييزها بسهولة بناءً فقط على مظهرها ثنائي الأبعاد، إلا أن الفروق المحلية بين البكسل والأنماط الهندسية في بيانات العمق تسمح بفصلها بشكل جيد في بعض الحالات. ومع ذلك، تُعاني الشبكات العصبية التلافيفية (CNNs) من قيود ناتجة عن هيكلها الثابت للنواة الشبكية، حيث تفتقر إلى القدرة على التقاط المعلومات التفصيلية والدقيقة، وبالتالي لا يمكنها تحقيق تصنيف دلالي دقيق على مستوى البكسل. لحل هذه المشكلة، نقترح شبكة تلافيفية تعتمد على فروق البكسل (PDCNet) لالتقاط الأنماط الداخلية التفصيلية من خلال جمع معلومات الشدة والانحدار في النطاق المحلي لبيانات العمق، وفي النطاق العالمي لبيانات RGB، على التوالي. وبشكل دقيق، تتكون PDCNet من فرع للعمق وفرع لـ RGB. أما في فرع العمق، فقد قمنا بتطوير تلافيف فروق البكسل (PDC) لاعتبار المعلومات الهندسية المحلية والدقيقة في بيانات العمق من خلال جمع معلومات الشدة والانحدار. أما في فرع RGB، فقد قدمنا نواة كبيرة متسلسلة خفيفة الوزن (CLK) لتوسيع PDC، مما يُعرف بـ CPDC، لتمكين الشبكة من الاستفادة من السياقات العالمية لبيانات RGB وتعزيز الأداء بشكل أكبر. نتيجة لذلك، تُدمج بشكل سلس فروق البكسل المحلية والعالمية لكل من البيانات الثنائية والعمق أثناء عملية انتقال المعلومات داخل PDCNet. وقد أظهرت التجارب على مجموعتي بيانات معيار صعبتين، وهما NYUDv2 وSUN RGB-D، أن PDCNet تحقق أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في مهمة التصنيف الدلالي.