ShapeConv: طبقة تقويسية واعية بالشكل للفصل الدلالي للصورة الملونة الداخلية ببيانات العمق

لقد لاقت التصنيف الدلالي RGB-D اهتمامًا متزايدًا خلال السنوات الأخيرة. تعتمد الطرق الحالية بشكل أساسي على مشغلات التباعد المتجانسة لاستهلاك السمات RGB والعمق، مما يتجاهل الفروق الجوهرية بينهما. في الواقع، تمثل قيم RGB خصائص المظهر الفوتوغرافي في فضاء الصورة المُشَكَّلة، بينما يُشْرِك ميزة العمق معلومات حول شكل الهندسة المحلية، وكذلك موقعها (المكان) في سياق أوسع. مقارنةً بالموقع، قد يكون الشكل أكثر جوهرية وله ارتباط أقوى بالدلالة، وبالتالي يكون أكثر أهمية لدقة التصنيف. مستوحاة من هذه الملاحظة، نقدّم طبقة تباعد مُدركة للشكل (ShapeConv) لمعالجة ميزة العمق، حيث يتم أولًا تحليل ميزة العمق إلى مكوّن شكل ومكوّن موقع، ثم إدخال وزنين قابلين للتعلم يعملان بشكل مستقل مع كل من المكوّنين، وأخيرًا تطبيق عملية تباعد على التوليف المعاد تقييمه لهذين المكوّنين. تتميز ShapeConv بأنها غير مرتبطة بنموذج معين ويمكن دمجها بسهولة في معظم الشبكات العصبية التلافيفية (CNNs) لاستبدال الطبقات التلافيفية التقليدية في مهام التصنيف الدلالي. أظهرت التجارب الواسعة على ثلاث معايير صعبة لتصنيف الدلالة RGB-D في الأماكن المغلقة، وهي NYU-Dv2(-13,-40)، وSUN RGB-D، وSID، فعالية طبقة ShapeConv عند استخدامها مع خمسة معماريات شائعة. علاوة على ذلك، تم تعزيز أداء الشبكات العصبية التلافيفية التي تستخدم ShapeConv دون أي زيادة في الحساب أو الذاكرة أثناء مرحلة الاستدلال. السبب في ذلك هو أن الأوزان المُتعلمة التي توازن الأهمية بين مكوّن الشكل ومكوّن الموقع في ShapeConv تصبح ثوابت خلال مرحلة الاستدلال، ويمكن دمجها في الطبقة التلافيفية التالية، مما يؤدي إلى شبكة تكون متطابقة من حيث البنية مع شبكة تستخدم طبقات تلافيفية تقليدية.