3D-SIS: تقسيم الدلالات الشعاعي ثلاثي الأبعاد لمسحات RGB-D

نقدم 3D-SIS، وهي معمارية شبكة عصبية جديدة لتقسيم النماذج الثلاثية الأبعاد في المسح الضوئي RGB-D التجاري. الفكرة الأساسية لطريقة عملنا هي التعلم المشترك من الإشارات الهندسية واللونية، مما يتيح التنبؤ الدقيق بالنموذج. بدلاً من العمل على الإطارات ثنائية الأبعاد فقط، نلاحظ أن معظم تطبيقات الرؤية الحاسوبية لديها مدخلات RGB-D متعددة الزوايا المتاحة، والتي نستفيد منها لبناء نهج لتقسيم النماذج الثلاثية الأبعاد يدمج هذه المدخلات متعددة الوسائط بشكل فعال. شبكتنا تستفيد من المدخلات ثلاثية الأبعاد ذات الدقة العالية عن طريق ربط الصور ثنائية الأبعاد بشبكة حجمية ثلاثية الأبعاد بناءً على تناسق وضع ثلاثي الأبعاد للإعادة البناء. لكل صورة، نقوم أولاً باستخراج الخصائص ثنائية الأبعاد لكل بكسل باستخدام سلسلة من التحويلات الثنائية (convolutions)؛ ثم نعيد إسقاط المتجه الخاص بالخصائص الناتجة إلى البكسل المرتبط في الشبكة ثلاثية الأبعاد. هذا الجمع بين تعلم الخصائص ثنائية وثلاثية الأبعاد يسمح بزيادة كبيرة في دقة كشف الأجسام وتقسيم النماذج مقارنة بالبدائل الأكثر تقدماً حاليًا. نعرض النتائج على مقاييس عامة اصطناعية وحقيقية، حيث حققنا تحسينًا في mAP يزيد عن 13% على البيانات الحقيقية.